Search Engine
fuyangchang
这个作者很懒,什么都没留下…
展开
-
搜索巨鳄迈克·林奇来华斡旋 Autonomy中国布局加速
7月24日凌晨,现年40岁的英国Autonomy全球CEO迈克·林奇( Mike Lynch )和公司COO安迪·康特(Andy katner)一行从英国飞抵北京国际机场。自2003年Autonomy进入中国市场以来,这还是迈克·林奇第二次来华——此前的一次是去年3月,当时由他亲自操刀,Autonomy首次在国内互联网搜索市场进行了前期部署。尽管Autonomy大中华区首席代表伍昕对迈克转载 2007-10-28 10:17:00 · 1199 阅读 · 0 评论 -
最大正向匹配算法
package fenci;import java.io.BufferedReader;import java.io.FileInputStream;import java.io.InputStreamReader;import java.util.*;public class ReadFileToVector { /** * @param str * @author:原创 2007-10-13 08:58:00 · 3071 阅读 · 0 评论 -
倒排算法实现
转自http://blog.iyi.cn/rimen/2006/01/倒排索引技术主要应用与全文检索,通过对非主关键字的分析,建立内容与PK之间的关键。通过索引文件 存储后提供给应用高效的检索。 如果需要自己定制倒排索引器,算法应该实现如下的步骤:1.信息分析,对输入的数据项或者记录(P,K)中的K做一个过滤的词法和语法分析。 主要对数据中非主关键字内容K进行分词,过滤,分析等获得一转载 2007-10-13 10:44:00 · 2663 阅读 · 0 评论 -
apriori算法思想
(1)L1 = find_frequent_1_itemset(D);(2) for(k=2;Lk-1≠∮,k++){(3) Ck = apriori-gen(Lk-1);(4) for each t∈D {[5) Ct = subset(Ck,t);(6) for each c∈Ct c.count++;(7) }(8) Lk = {c∈Ck|c.count>min_support};(9)}原创 2007-10-17 20:02:00 · 3136 阅读 · 0 评论 -
对客户信息收集,收集用户行为的方法总结
1.分析服务器的web log。 缺点:日志记录不准确。特别是在有缓存存在的情况下,在日志中无法得到体现。2.java applet。优点:可以利用java的强大的类库,缺点:需要在客户端下载applet,但客户可能会拒绝下载。3.plug-in。缺点同上。4.javascript。利用javascript的xmlhttprequest对象。在用户离开页面时触发unload事件。缺点:代码太多,原创 2008-01-21 15:23:00 · 2851 阅读 · 0 评论 -
建索引优化的优化方法
对query建立索引的时候,可能输入的文件格式如下: term1 term2|query|pv。。。。 考虑每个term对应的倒排链,可能不能将每个term的posting list保存下来,这时候就需要一种截断的方法,从而优化线上检索的性能。 一种可能的方法是: 1.首先将所有的行按照pv进行排序,sort就可以实现,sort –t”|” –k3rn 2.顺序读取每一行,将query写文件,并将offset保存到term1 ,term2对应的 posting list 中。 3.将每个ter原创 2011-04-28 16:52:00 · 788 阅读 · 0 评论