搜索引擎
文章平均质量分 63
gls_jia
追寻那遥遥领先
展开
-
nutch在linux下的安装配置
<br />一些linux命令:<br />echo $PATH:可执行文件的查询路径lsof -i | grep 8005查询8005端口被哪个进程占用kill -9 pid:杀死某个进程tail -f log:实时查询log的最后10行数据<br />安装配置:<br />1.java<br />2.libstdc++<br />3.nutch<br />4.tomcat<br />1、将nutch目录下的nutch-1.2.war拷贝到tomcat目录下的webapps下:[roo原创 2011-03-19 23:39:00 · 2652 阅读 · 0 评论 -
搜索引擎-信息检索实践—page rank
网页入链数:指向这个网页的链接数。链接倾向于指向受欢迎的网页。网页链接举例:bing主页, “bing主页”即锚文本,可以利用anchor text 挖掘个人/机构主页。页面的page rank,即浏览该页面的概率。举例:网页A,B,C;A链向B及C;B链向C;C链向A。页面C的page rank,即浏览页面C的概率,依赖于A和B的page rank。假设点原创 2013-08-02 01:07:04 · 1741 阅读 · 0 评论 -
搜索引擎-信息检索实践—网络爬虫
网络爬虫有两个任务:下载页面和发现URL。从请求队列中取出URL,下载对应页面,解析页面,找到链接标签。网络爬虫发现了没有遇到过的URL,将其加入请求队列。网络爬虫使用礼貌策略(politeness policy):网络爬虫不会在特定的网络服务器上一次抓取多个页面,在同一个网络服务器的两次请求之间,网络爬虫会等待一定时间。管理员可以在网络服务器上保存robo原创 2013-07-31 20:50:55 · 2995 阅读 · 0 评论 -
URL- 含义及组成
URL (uniform resource locator) : 互联网的每个网页都有自己唯一的统一资源定位器,由3部分组成:通信协议,主机名,资源名。HTTP(hypertext transfer protocol):网页存储在网络服务器,使用超文本传输协议,和客户端软件交换信息。主机名:保存该网页的网络服务器的计算机名。资源名:该URL指向这台计算机的一个页面。举例:原创 2013-07-31 18:32:43 · 2079 阅读 · 0 评论 -
Lucene布尔查询中的句子查询
Lucene支持term查询(TermQuery)、布尔查询、词语查询(PhraseQuery)、范围查询(RangeQuery)、前缀查询(PrefixQuery)、模糊查询(FuzzyQuery)等。Lucene的布尔查询又包括求交查询、求并查询和求差查询。在此以求交查询为例,说明Lucene的句子查询。测试程序说明:使用Lucene的求交的布尔查询。为支持中文分词,使用J原创 2011-12-10 22:50:00 · 2776 阅读 · 0 评论 -
使用lucene构建简易的全文检索系统
1. 在eclipse中安装配置lucenea) 下载lucene-core-2.3.2.jarb) File->new java project->properties->javabuild path->add external jars: lucene-core-2.3.2.jarc) 为支持中文搜索,和导入lucene-co原创 2011-12-09 14:45:06 · 1864 阅读 · 1 评论 -
BLOOM FILTER —读数学之美
背景:判断一个元素是否在一个集合中,可以使用数组、哈希表(哈希表的存储效率一般只有50%)。Bloom filter只需要哈希表1/8 到 1/4 的大小就能解决同样的问题,但是会有一定的误识别率,可以设置白名单。 应用举例:存储一亿个垃圾邮件地址,监测新邮件是否原创 2011-09-15 14:10:25 · 1042 阅读 · 0 评论 -
最大熵模型—读数学之美
保留全部的不确定性,使得熵最大,风险最小。 最大熵原理:对一个随机事件的概率分布进行预测时,要满足全部的已知条件,对未知的情况不要做主观假设,概率分布越均匀,预测风险越小。要保留所有的不确定性。 举例:拼音转汉字1.根据语言模型:wang-xiao-bo,可以原创 2011-09-14 19:46:58 · 1274 阅读 · 0 评论 -
有限自动机—query中的where识别
有限状态自动机:5元组(Ʃ,Q,δ,q0,A)Ʃ:有限的输入字母表Q:有限的状态集合δ:从Ʃ* Q到Q的函数,状态转义函数q0:初始状态A:可接受状态集,A是Q的子集DFA & NFA的区别:DFA的转移函数δ:(Qi,x)->Qj原创 2011-09-14 11:27:17 · 1279 阅读 · 0 评论 -
网页和查询的相关性度量—读数学之美
基本方法:关键词出现频率对查询切词,网页中包含的词越多,就越相关。考虑到长文本比短文本有优势,根据网页的长度对关键词出现的次数进行归一化:关键词的频率(term frequency)=关键词的次数/网页总字数。 举例:一共有一千词的网页中“原子能”、“的”和“应用原创 2011-09-13 22:48:58 · 1262 阅读 · 0 评论 -
中文分词—读数学之美
语言统计模型:设S表示一连串特定顺序排列的词:w1,w2,w3,…,wn,S可能是一个有意义的句子。 S在文本中出现的可能性,即P(S):P(S)=P(w1)*P(w2|w1)*P(w3| w1 w2)…*p(wn| w1 w2 … wn-1)p(w1)表示w1出原创 2011-09-12 16:20:55 · 1958 阅读 · 0 评论 -
信息论的几个概念—读数学之美
使用信息熵来度量信息,单位bit。信息量度量的理解:例子:马上要举行世界杯赛了,大家都很关心谁会是冠军。假如我错过了看世界杯,赛后我问一个知道比赛结果的观众“哪支球队是冠军”? 他不愿意直接告诉我, 而要让我猜,并且我每猜一次,他要收一元钱才肯告诉我是否猜对了,那么我原创 2011-09-13 22:44:18 · 1070 阅读 · 0 评论 -
相关视频算法
背景:根据视频名称,得到若干相关视频方法:对视频名称切词,将切词后的term进行拉链求并,按照视频名称中term出现个数排序 缺点:拉链求并代价高,没有考虑到term的权重,没有考虑视频属性改进:考虑英文、数字带来的影响去除视频名称中冗余、没有意义原创 2011-09-12 15:35:12 · 882 阅读 · 0 评论 -
lucene索引结构的整理
<br /> <br />倒排索引结构,示例如下:<br /> <br />设有2篇文章:<br />文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. <br />文章2的内容为:He once lived in Shanghai. <br /> 分词:英文以空格分隔,中文根据基础词典和扩展词典分隔为字和词。去停用词、标点符号、大小写转换等,由Analyzer完成。<br />文章1的所有关键词为:[tom] [live] [guan原创 2011-04-10 13:12:00 · 2135 阅读 · 0 评论