初次接触网络爬虫

最新推荐文章于 2022-12-18 12:49:50 发布

xm_zhou

最新推荐文章于 2022-12-18 12:49:50 发布

阅读量1.6k

点赞数

文章标签：网络爬虫互联网技术心得

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xm_zhou/article/details/17093613

版权

最近研究爬虫，需求是根据url获取整个HTML，然后在从HTML中提取meta标签中的keywords的内容和description的内容，以及文章标题和文章正文内容。

在这篇微博中，没有什么技术所要讲的。我只是把自己的整体思路把我做的整体框架说一下。（不知道对不对，反正按照自己的思路来，即使不对也能学到东西，为以后打下基础，希望对读者有用吧）

当我接到这个任务的时候，有种感觉，就是完了，什么也不会，没接触过啊，不知道从哪下手。所以呢，在网上找了一些开源的爬虫项目，不找还好，一找，我晕，好多又不知道选哪个了。但是这可以说明，在互联网时代，搜索引擎发展的年代，网络爬虫技术是比较成熟的。下面就是一些常用的开源网络爬虫的介绍，这些也是我从网上一点一点找到的，希望对阅读者有用吧。同时也谢谢那些提供资料的人们。

1.nutch 这是最常见的分布式网络爬虫。2.heritrix 这是比较流行的多线程网络爬虫。

更多的开源网络爬虫请参考 http://www.oschina.net/project/tag/64/spider 上面写得很详细

还有很多开源的网络爬虫，这两种都是用java语言写的，并且是经常更新的两种爬虫，我目前的水平是看不太懂他们的源代码。只是按照自己的理解去简单说下。

nutch 分布式网络爬虫，是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。nutch跟hadoop和HDFS有良好的结合。而heritrix 同样是用java语言写得，采取多线程爬取的，他爬取的策略有很多，比如说可以解决登陆问题，可以从配置文件中配置爬取数据的频率这样可以防止平凡的爬取网站被封IP等问题。

对于nutch的详细介绍我建议大家看看gobitan的博客，写的很详细地址 http://blog.csdn.net/gobitan/article/details/17100593

现在拿我的需求来讲，技术上的东西我可能讲的不是很好，也懂得不是很多，毕竟接触互联网和大数据以及网络爬虫只有1个多月的时间。但是我想把自己的经验和列子分享给大家。也想给自己坐下笔记吧。留点东西给自己，希望大家多多指教。。

需求（一句话说）:根据URL爬取内容。存入HBase中（这里指明一下自己的hadoop也是刚学。看拉起学的东西很多）。

把需求拆开，分成一个一个的点。这样思路我框架就出来了。

根据URL爬取响应的整个HTML页面，然后从HTML提取自己想要的东西。

第一。根据URL爬取响应的整个HTML页面。这个我用到的技术是httpClient。其中细节我会在今后慢慢写，我也是一点一点的摸索，实践来的，不一定是最好的，我也会吧自己的代码写上去，希望大神们给与指点。

第二。从HTML提取自己想要的东西。这个比我来说不容易，因为我开始用的是htmlparser，后来发现不太理想，最终选择了jsoup分析html页面。

上面是总体的思路，细节方面也没提到，慢慢来，希望自己能够成功。在这个过程中叶遇到了很多问题，比如说，爬取乱码，去噪等等问题。

这是一个初级不能再初级的码农，都是自己的看法和学习笔记吧，希望大家多多指点。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

xm_zhou CSDN认证博客专家 CSDN认证企业博客

码龄11年

9: 原创

42万+: 周排名

165万+: 总排名

3万+: 访问

: 等级

418: 积分

7: 粉丝

2: 获赞

6: 评论

6: 收藏

私信

关注

热门文章

最新评论

JDBC 如何判断一张表是否存在
AIMaynor: undefined
JAVA + uploadify 3.2.1 + Spring MVC + FTP 上传图片
今儿: ???
JAVA + uploadify 3.2.1 + Spring MVC + FTP 上传图片
YanHuoJava: 我是来看帅哥的
初试网络爬虫（1）
xm_zhou: 希望大家多多留言，多多交流，这样我才知道自己写的东西是不是垃圾。我是新手中的新手，希望大家多多指教。
初次接触网络爬虫
xm_zhou 回复 wql860929645: 不是的。。。我碰到过一个问题。就是我爬虫爬下来的HTML页面是正常的格式没有乱码，但是经过htmlparser处理后就出现乱码了，我又用jsoup去处理结果没有乱码，自己感觉htmlparser不太好用，而且我用正则去除标签的话，在hadoop运行有时候会报错，不知道为什么。。。

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。