初次接触网络爬虫

        最近研究爬虫,需求是根据url获取整个HTML,然后在从HTML中提取meta标签中的keywords的内容和description的内容,以及文章标题和文章正文内容。

        在这篇微博中,没有什么技术所要讲的。我只是把自己的整体思路把我做的整体框架说一下。(不知道对不对,反正按照自己的思路来,即使不对也能学到东西,为以后打下基础,希望对读者有用吧)

        当我接到这个任务的时候,有种感觉,就是完了,什么也不会,没接触过啊,不知道从哪下手。所以呢,在网上找了一些开源的爬虫项目,不找还好,一找,我晕,好多又不知道选哪个了。但是这可以说明,在互联网时代,搜索引擎发展的年代,网络爬虫技术是比较成熟的。下面就是一些常用的开源网络爬虫的介绍,这些也是我从网上一点一点找到的,希望对阅读者有用吧。同时也谢谢那些提供资料的人们。

        1.nutch 这是最常见的分布式网络爬虫。2.heritrix 这是比较流行的多线程网络爬虫。

           更多的开源网络爬虫请参考     http://www.oschina.net/project/tag/64/spider   上面写得很详细

          还有很多开源的网络爬虫,这两种都是用java语言写的,并且是经常更新的两种爬虫,我目前的水平是看不太懂他们的源代码。只是按照自己的理解去简单说下。

          nutch 分布式网络爬虫, 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。nutch跟hadoop和HDFS有良好的结合。而heritrix 同样是用java语言写得,采取多线程爬取的,他爬取的策略有很多,比如说 可以解决登陆问题,可以从配置文件中配置爬取数据的频率这样可以防止平凡的爬取网站被封IP等问题。

          对于nutch的详细介绍我建议大家看看gobitan的博客,写的很详细 地址  http://blog.csdn.net/gobitan/article/details/17100593

       现在拿我的需求来讲,技术上的东西我可能讲的不是很好,也懂得不是很多,毕竟接触互联网和大数据以及网络爬虫只有1个多月的时间。但是我想把自己的经验和列子分享给大家。也想给自己坐下笔记吧。留点东西给自己,希望大家多多指教。。

        需求(一句话说):根据URL爬取内容。存入HBase中(这里指明一下自己的hadoop也是刚学。看拉起学的东西很多)。

        把需求拆开,分成一个一个的点。这样思路我框架就出来了。

        根据URL爬取响应的整个HTML页面,然后从HTML提取自己想要的东西。

       第一。根据URL爬取响应的整个HTML页面。这个我用到的技术是httpClient。其中细节我会在今后慢慢写,我也是一点一点的摸索,实践来的,不一定是最好的,我也会吧自己的代码写上去,希望大神们给与指点。

       第二。从HTML提取自己想要的东西。这个比我来说不容易,因为我开始用的是htmlparser,后来发现不太理想,最终选择了jsoup分析html页面。

     上面是总体的思路,细节方面也没提到,慢慢来,希望自己能够成功。在这个过程中叶遇到了很多问题,比如说,爬取乱码,去噪等等问题。

这是一个初级不能再初级的码农,都是自己的看法和学习笔记吧,希望大家多多指点。

       

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值