初次接触网络爬虫

原创 2013年12月04日 00:27:54

        最近研究爬虫,需求是根据url获取整个HTML,然后在从HTML中提取meta标签中的keywords的内容和description的内容,以及文章标题和文章正文内容。

        在这篇微博中,没有什么技术所要讲的。我只是把自己的整体思路把我做的整体框架说一下。(不知道对不对,反正按照自己的思路来,即使不对也能学到东西,为以后打下基础,希望对读者有用吧)

        当我接到这个任务的时候,有种感觉,就是完了,什么也不会,没接触过啊,不知道从哪下手。所以呢,在网上找了一些开源的爬虫项目,不找还好,一找,我晕,好多又不知道选哪个了。但是这可以说明,在互联网时代,搜索引擎发展的年代,网络爬虫技术是比较成熟的。下面就是一些常用的开源网络爬虫的介绍,这些也是我从网上一点一点找到的,希望对阅读者有用吧。同时也谢谢那些提供资料的人们。

        1.nutch 这是最常见的分布式网络爬虫。2.heritrix 这是比较流行的多线程网络爬虫。

           更多的开源网络爬虫请参考     http://www.oschina.net/project/tag/64/spider   上面写得很详细

          还有很多开源的网络爬虫,这两种都是用java语言写的,并且是经常更新的两种爬虫,我目前的水平是看不太懂他们的源代码。只是按照自己的理解去简单说下。

          nutch 分布式网络爬虫, 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。nutch跟hadoop和HDFS有良好的结合。而heritrix 同样是用java语言写得,采取多线程爬取的,他爬取的策略有很多,比如说 可以解决登陆问题,可以从配置文件中配置爬取数据的频率这样可以防止平凡的爬取网站被封IP等问题。

          对于nutch的详细介绍我建议大家看看gobitan的博客,写的很详细 地址  http://blog.csdn.net/gobitan/article/details/17100593

       现在拿我的需求来讲,技术上的东西我可能讲的不是很好,也懂得不是很多,毕竟接触互联网和大数据以及网络爬虫只有1个多月的时间。但是我想把自己的经验和列子分享给大家。也想给自己坐下笔记吧。留点东西给自己,希望大家多多指教。。

        需求(一句话说):根据URL爬取内容。存入HBase中(这里指明一下自己的hadoop也是刚学。看拉起学的东西很多)。

        把需求拆开,分成一个一个的点。这样思路我框架就出来了。

        根据URL爬取响应的整个HTML页面,然后从HTML提取自己想要的东西。

       第一。根据URL爬取响应的整个HTML页面。这个我用到的技术是httpClient。其中细节我会在今后慢慢写,我也是一点一点的摸索,实践来的,不一定是最好的,我也会吧自己的代码写上去,希望大神们给与指点。

       第二。从HTML提取自己想要的东西。这个比我来说不容易,因为我开始用的是htmlparser,后来发现不太理想,最终选择了jsoup分析html页面。

     上面是总体的思路,细节方面也没提到,慢慢来,希望自己能够成功。在这个过程中叶遇到了很多问题,比如说,爬取乱码,去噪等等问题。

这是一个初级不能再初级的码农,都是自己的看法和学习笔记吧,希望大家多多指点。

       

Windows简单入门-送给第一次使用电脑的朋友

本篇文章是纯小白文章,之所以写这个是因为前段时间妹妹进入大学了也是计算机专业,但是之前都没有用过电脑,所以不得不写上一篇说明;之所以分享出来是为了给刚刚接触电脑的朋友提个醒,免得走太多弯路。...
  • qiujuer
  • qiujuer
  • 2015年12月19日 15:09
  • 1979

zigbee学习笔记4----初次接触zstack

zigbee学习笔记4----初次接触zstack 分类: zigbee 2013-02-20 17:24 2414人阅读 评论(6) 收藏 举报 目录(?)[+]   1.写在前面 之前一...
  • u012568663
  • u012568663
  • 2014年07月03日 14:37
  • 540

python爬虫-初次接触

说来惭愧,学习程序这么多年,居然都没有为自己怎么编写过程序,之前一直鄙视python一类的脚本语言,想来是多么的无知呀。。 最近觉得必须为自己写写程序了,不能一辈子只为别人服务是吧。 我理解的网络...
  • bestboyxie
  • bestboyxie
  • 2016年11月27日 21:24
  • 540

初次接触zstack

zstack安装了之后得到了不是一大堆文件夹吗?里面包含了很多TI开源的代码和不开源的一些库,我们在编程的时候需要用到这些代码和库,就像我们写c语言程序的时候很多#include这些,很多都是库文件一...
  • haifengid
  • haifengid
  • 2016年06月15日 07:37
  • 292

08 ZStack初步接触

版本说明Zstack 0.0.1 .. Zstack 1.5.1amesh:之前版本的升级版 HA: 专门给智能家庭 SE: 智能能源 .. 在应用部分作了规定!新建工程模板 复制ZSta...
  • lzjsqn
  • lzjsqn
  • 2017年02月16日 19:48
  • 252

第一次学习信息安全的心得

接触信息安全完全是
  • Aiop13
  • Aiop13
  • 2014年10月06日 18:27
  • 814

用ruby写的一个网络爬虫程序

require 'open-uri'require 'thread'# run it like this :# ruby Crawl.rb 2 1000 http://www-cs.stanford....
  • wo970211002
  • wo970211002
  • 2015年06月09日 11:10
  • 294

【深度学习】初次接触

很早就听说过人工智能,模式识别这些概念,但是一直觉得深不可测,读研后,最开始导师只交代了下课题方向做树叶的识别。 当时觉得自己有android的功底,编程上应该没有什么问题。开始也不是很清楚工程和研究...
  • bless2015
  • bless2015
  • 2016年02月13日 21:50
  • 525

HackRF初次接触

hackrf的编译过程
  • leekwen
  • leekwen
  • 2014年12月10日 13:46
  • 3652

初次接触分块思想

在练习mobius反演的时候有一题需要用分块的思想来优化,于是第一次听说了分块思想。比较有名的当属号称可以解决所有不修改、离线查询问题的莫队算法。几乎所有的莫队算法的介绍都和[BZOJ]2038 小Z...
  • theArcticOcean
  • theArcticOcean
  • 2016年01月21日 09:05
  • 238
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:初次接触网络爬虫
举报原因:
原因补充:

(最多只允许输入30个字)