搜索引擎
文章平均质量分 91
Towan
天下之至柔,驰骋天下之至坚。
展开
-
网络爬虫
首先明白互联网页面划分为五个部分:1.已下载网页集合2.已过期网页集合3.待下载网页集合4.可知网页集合5.不可知网页集合爬虫分为三种类型1.批量性爬虫2.增量型爬虫3.垂直型爬虫爬虫抓取的策略1.宽度优先遍历2.非完全PageRank3.OPIC(Online Page Importantance Computa原创 2013-10-12 08:55:42 · 1427 阅读 · 0 评论 -
索引的建立、更新策略
一、索引的建立分为三种方式:1.两遍文档倒排法第一遍文档扫描时完成一些全局信息统计,如文档集合的数量、每个文档的单词数量、词频等第二遍文档扫描的主要任务是填补每个单词的倒排列表,完全在内存中进行2.排序倒排法步骤为:排序文档ID赋值、单词ID赋值、更新词典、统计词频、构建三元组、三元组排序、写中间结果文件、合并中间结果文件。3.归并倒排法 二、索引更新...2014-05-03 17:50:51 · 259 阅读 · 0 评论 -
微博抓取策略及实现
微博获取的方法不同于一般的网页获取,一般网页总是给定一个初始URL,按照一定的规则例如深度优先、广度优先、大站优先、小站优先等方法进行扩展其URL地址进行爬取数据,而微博抓取的实质为在一个给定的微博URL之中,直接抓取页面,并对页面进行解析,例如获取粉丝数、微博数、关注数、发表的帖子等等数据。其抓取的方法本质上可以归结为两种:直接调用官方给定的开放api和间接进行硬性爬取。下面以新浪微博为例原创 2013-11-14 13:33:47 · 10032 阅读 · 7 评论 -
基于JAVA技术的搜索引擎的研究与实现
基于JAVA技术的搜索引擎的研究与实现 目录 目录.................................................................................................................................................................转载 2013-12-15 21:31:36 · 3993 阅读 · 0 评论 -
solr的软提交和硬提交
在solr4.0中增加了软提交,加快了index速度,具体如下:A commit operation makes index changes visible to new search requests.A hard commit also calls fsync on the index files to ensure they have been flushed to st原创 2013-12-05 10:02:22 · 3621 阅读 · 0 评论 -
不用微博开放api直接进行爬去微博需要解决问题
1.模拟登陆。从什么节点开始的问题2.parse页面信息。原创 2013-10-21 09:45:58 · 2093 阅读 · 0 评论 -
低成本服务器搭建千万级数据采集系统
有这样一个采集系统的需求,达成指标: 需要采集30万关键词的数据 、微博必须在一个小时采集到、覆盖四大微博(新浪微博、腾讯微博、网易微博、搜狐微博)。为了节约客户成本,硬件为普通服务器:E5200 双核 2.5G cpu, 4 G DDR3 1333内存,硬盘 500G SATA 7200转硬盘。数据库为mysql。在这样的条件下我们能否实现这个系统目标?当然如果有更好的硬件不是这个文章阐述的内容原创 2013-10-21 16:36:26 · 2017 阅读 · 2 评论 -
利用java程序模拟登陆新浪微博
上篇介绍了对于新浪微博登陆机制的阐述,下面将介绍一篇很好的使用java模拟登陆新浪微博http://3352580.blog.51cto.com/3342580/1205051转载 2013-10-21 15:13:39 · 4226 阅读 · 0 评论 -
新浪微博 2013 年 6 月的 API 变更将会带来哪些影响?
确实这一升级给开发者带来了不少的影响。 http://www.zhihu.com/question/21243305转载 2013-10-21 11:12:08 · 1636 阅读 · 0 评论 -
关于微博数据抓取的实践
最近接到一个任务主要是想抓取微博相关微博数据。比如说抓取一个特定微博中微博数、关注数、被关注的粉丝数、个人相关信息比如居住地、学校等公开的信息,以及被关注数的粉丝、微博数、关注数及相关信息。以便收集到信息以后用来做数据挖掘。 调查了许久,发现获取数据的方法大概有三种方法:1.相关微博开发平台提供的api2.使用网络爬虫3.结合爬虫及微博开放api方法进行抓取。原创 2013-10-14 15:49:32 · 3988 阅读 · 1 评论 -
solr查询参数简介
查询参数简介(官方介绍http://wiki.apache.org/solr/CommonQueryParameters):• q (query) - 参数的主查询,默认是所有的“*:*”• fl (Field List) - 指定返回那些字段内容,用逗号或空格分隔多个。例如:“fl=id,name”意味着值列出id, ...原创 2014-06-08 11:28:56 · 222 阅读 · 0 评论