爬虫
文章平均质量分 72
风吹千里
潜心一技、做到极致。
展开
-
robots文件的作用
robots是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。原创 2022-10-01 17:30:40 · 570 阅读 · 0 评论 -
html的nofollow、noindex标签
nofollow 是一个HTML标签的属性值。这个标签的意义是告诉搜索引擎"不要追踪此网页上的链接或不要追踪此特定链接"。1、将"nofollow"写在网页上的meta标签上,用来告诉搜索引擎不要抓取网页上的所有外部和包括内部链接。是否允许索引(index)和是否跟踪链接(follow,也可以理解为是否允许沿着网页中的超级链接继续抓取)。2、将"nofollow"放在超链接中,告诉搜索引擎不要抓取特定的链接。的一个属性值,我们只需要在源代码里面加上。3、nofollow标签是超链接。原创 2022-10-01 17:12:11 · 666 阅读 · 0 评论 -
nutch2.3.1抓取网页的几个重要步骤
虽然,网上有很多类似的博客,我这篇博客可能在其他博客上也有,但是我还是想记录一下我学习nutch的过程。通过xshell日志记录来写这篇博客(我不想重新来一遍了!^_^) nutch爬虫的抓取周期主要分为5步:1.inject—>2.generate—>3.fetch—>4.parse—>5.updatenutch2.3.1的编译过程这里就不多说了,nutch...原创 2018-04-14 10:38:34 · 678 阅读 · 0 评论 -
nutch二次开法之导入到eclipse
二次开发nutch(所有的都是在nutch2.3.1版本)首先要把项目导入到eclipse中,本博客参考了nutch wiki后,自己亲自导入成功。一、开始之前设置Nutch运行到Eclipse中可能会非常棘手,如果你在Eclipse中编辑Nutch,但是从命令行运行,这样做调试会更快。 然而,能够在Eclipse中调试Nutch非常有用,并且在应用和测试补丁时也非常有用。1、准备工作需要安装an原创 2018-04-14 18:45:55 · 412 阅读 · 0 评论 -
nutch二次开发之hadoop和hbase开发环境搭建
因为nutch存储需要hadoop和hbase,所以先把hadoop和hbase安装起来。 网上有许多通过Cygwin来搭建hadoop开发环境其实没有必要,在hadoop官方文档中已经说hadoop2.x版本的hadoop没有必要也不支持Cygwin。官方文档(Do not attempt to run the installation from within Cygwin. Cygwin i...原创 2018-04-15 13:44:02 · 437 阅读 · 0 评论