![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
html解析
小钻风巡山
咸鱼即将翻身
展开
-
JAVA爬虫
java爬虫原创 2018-08-27 17:44:19 · 200 阅读 · 1 评论 -
反开源爬虫 robot.txt
搜索引擎通过一种程序“蜘蛛”(又称spider),自动访问互联网上的网页并获取网页信息。您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被蜘蛛访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎访问和收录了,或者可以通过robots.txt指定使搜索引擎只收录指定的内容。搜索引擎爬行网站第一个访问的文件就是robots.txt。 百度百科 --ro...转载 2019-05-08 22:34:09 · 1079 阅读 · 0 评论