爬虫
文章平均质量分 84
千丈之松
开放、平等、协作、分享;
现代互联网精神。
展开
-
Jsoup 爬取页面的数据和 理解HTTP消息头
推荐一本书:黑客攻防技术宝典.Web实战篇 ; 顺便留下一个疑问:是否能通过jsoup大量并发访问web或者小型域名服务器,使其瘫痪?其实用jsoup熟悉的朋友可以用它解析url来干一件很无耻的事(源码保密)。呵呵,接下来简单的介绍下JSOUP。 jsoup 是一款基于Java 的HTML解析器,可直接解析某个URL地址、HTML文本字符串、HTML文件。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 官网下载地址:h原创 2014-10-22 10:20:11 · 8966 阅读 · 2 评论 -
浅谈搜索引擎日志分析(SEO)
对于网站优化来说,搜索引擎日志分析是必不可少的一块,无论你是收录上百的小型网站,还是收录上百万的大中型网站,SEO要想做得好,都必需进行科学的日志分析,日志是发生在网站服务器上的所有事件的记录,包括用户访问记录,搜索引擎抓取记录,对于一些大型网站来说,每天的日志都有好几个G大小的,我们可以使用linux命令去进行分离的,在大型网站日志文件往往是机密文件,一般人是看不到的,因为从日志里边可以分析访客转载 2015-02-28 12:51:47 · 2560 阅读 · 0 评论 -
nutch的定时增量爬取
脚本大致分为8部:Inject URLs(注入urls)Generate, Fetch, Parse, Update Loop(循环执行:产生待抓取URL,抓取,转换得到的页面,更新各DB)Merge Segments(合并segments)Invert Links(得到抓取到的页面的外连接数据)Index(索引)Dedup(去重)Merge Indexes(合并索引)Load new indexes(tomcat重新加载新索引目录)翻译 2015-03-19 16:55:48 · 2733 阅读 · 3 评论 -
Nutch相关框架安装使用最佳指南
一、nutch1.2二、nutch1.5.1三、nutch2.0四、配置SSH五、安装Hadoop Cluster(伪分布式运行模式)并运行Nutch六、安装Hadoop Cluster(分布式运行模式)并运行Nutch七、配置Ganglia监控Hadoop集群和HBase集群八、Hadoop配置Snappy压缩九、Hadoop配置Lzo压缩 十、配置zooke转载 2015-03-13 17:57:54 · 1040 阅读 · 0 评论 -
爬虫nutch
爬虫,基本可以分三类: 1.分布式爬虫:Nutch 2.JAVA单机爬虫:Crawler4j、WebMagic、WebCollector 3. 非JAVA单机爬虫:scrapy Nutch:分布式爬虫 nutch背景: Apache基金会主席Hadoop之父Doug Cutting,发起开源项目lucene、nutch、hadoop,同时在hadoop领域称之hadoop之父。。通过nutch的一次原创 2015-03-18 19:36:55 · 1615 阅读 · 0 评论 -
用生产者消费者模式实现爬虫批量提交网页给搜索引擎
业务:爬取国内部分招聘网站的职位信息。。当爬虫线程抓取到的页面数据到一定量时或者一定时间内。提交给搜索引擎solr(提高索引性能)。循环爬行操作。。从而实现更高的资源利用率。。思路:N个线程爬虫作为Producer,提交搜索引擎作为Consumer。1:爬虫:crawler4j ; 参考资料:http://blog.csdn.net/longzuyuan/article/details/8894912 http://blog.csdn.net/sadfishsc/a原创 2015-04-08 18:52:40 · 3259 阅读 · 0 评论 -
最基本的网页爬虫(数据采集)
经常看到一些交流网页爬虫的初学者来问有没有教程,什么是爬虫呢?(ps:不是爬虫类,记得最搞笑的是一个交流这个主题的群,有人进来发广告,广告的内容则是卖蜥蜴、变色龙之类的爬虫)。ok,言归正传,什么是网络爬虫呢? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁转载 2016-02-01 16:55:58 · 2092 阅读 · 1 评论 -
技术交流,扫描关注技术公众号!
精选各领域互联网技术, 推送前后端、算法、人工智能领域优质技术文章!! 本公众号由阿里、网易、美团等团队组成精选各领域互联网技术, 推送前后端、算法、人工智能领域优质技术文章!! 本公众号由阿里、网易、美团等团队组成。...原创 2018-11-20 20:40:13 · 388 阅读 · 0 评论