搜索引擎
Q-WHai
O ever youthful,O ever weeping.
展开
-
网站分类前导:获取网站标题和描述及对相关信息进行分词处理
之前,笔者做过一些关于网络爬虫的东西。而且爬取的效果还可以。不过还有一些爬虫的博客没有完成,在后期会将其更新完成。而之前的爬虫只是对网页中的URL进行提取,我想做的效果是能对这些网页进行分类。而分类的前提是我们能够依据一些可信文本,对这些文本进行分词,再通过这些分出来的词再进行分类(如:贝叶斯分类器)。而本文就是对网页分类的前导学习——中文分词学习。原创 2015-09-15 10:20:36 · 3330 阅读 · 0 评论 -
网络爬虫初步:从一个入口链接开始不断抓取页面中的网址并入库
在这篇博客中,我主要是说明要做的两件事,一是入库,二是遍历拿到的链接继续访问。如此往复,这样就构成了一个网络爬虫的雏形。原创 2015-08-12 23:46:41 · 20919 阅读 · 3 评论 -
网络爬虫初步:从访问网页到数据解析
本篇文章在这里只是起一个抛砖引玉的作用。本文主要是讲解了如何使用Java/Python访问网页并获得网页代码、Python模仿浏览器进行访问网页和使用Python进行数据解析。希望我们以本文开始,一步一步解开网络蜘蛛神秘的一面。原创 2015-08-10 19:05:35 · 12119 阅读 · 0 评论 -
网络爬虫:采用“负载均衡”策略来优化网络爬虫
这里说的负载均衡并非大家熟悉的网络中的负载均衡。只是这里我使用了和负载均衡同样的一种思维来优化程序罢了,其实就是压力分摊。原创 2015-08-24 18:44:04 · 2963 阅读 · 0 评论 -
网络爬虫:URL去重策略之布隆过滤器(BloomFilter)的使用
最近被网络爬虫中的去重策略所困扰。使用一些其他的“理想”的去重策略,不过在运行过程中总是会不太听话。不过当我发现了BloomFilter这个东西的时候,的确,这里是我目前找到的最靠谱的一种方法。原创 2015-08-25 22:45:19 · 26460 阅读 · 9 评论 -
网络爬虫:分离生产者和消费者来优化爬虫程序
基于前面的一些工作(可参见笔者前面的相关博客),我们取得了一些成果。不过存在的问题又总是会让人坐立不安。本文通过分离生产者、消费者以及引入连接池技术来优化爬虫程序。解决前面说到的数据库连接数过大、程序长时间运行OOM的情况。原创 2015-08-21 16:52:34 · 4751 阅读 · 0 评论 -
网络爬虫:使用多线程爬取网页链接
经过前面两篇文章,你想大家应该已经知道网络爬虫是怎么一回事了。这篇文章会在之前做过的事情上做一些改进,以及说明之前的做法的不足之处。原创 2015-08-17 18:59:47 · 12125 阅读 · 0 评论