【Python爬虫】了解网站信息

最新推荐文章于 2020-10-09 11:06:19 发布

菜鸟未入门

最新推荐文章于 2020-10-09 11:06:19 发布

阅读量360

点赞数

分类专栏： python爬虫文章标签：爬虫 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29497763/article/details/78403135

版权

python爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

—-引用自”用Python写网络爬虫(Web Scraping with Python) “所有代码均用Python2.7编写

– 检查robots.txt

大多数网站都会定义robots.txt文件，这样可以让爬虫了解爬去该网站是存在哪些限制。检查robots.txt文件可以最小化爬虫被封禁的可能，而且还能发现和网站结构相关的线索。

– 检查网站地图

网站提供的Sitemap文件（网站地图）可以帮助爬虫定位网站最新的内容，而无需爬取每一个网页。

– 估算网站大小

使用site关键词对要爬取的网站进行搜索（百度，Google等搜索引擎），如：site:http://blog.csdn.net

– 识别网站所用的技术

检查网站构建的技术类型使用 builtwith 模块。

先安装模块：pip install builtwith

import builtwith
builtwith.parse('http://blog.csdn.net')

– 寻找网站所有者

我们已知的网站所有者会封禁网络爬虫，那么我们最好吧下载速度控制得更加保守一些。我们可以使用WHOIS协议查询域名的注册者是谁。Python中有一个针对该协议的封装库 - - python-whois

先安装模块：pip install python-whois

import whois
print whois.whois('appspot.com')

菜鸟未入门

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Python爬虫】了解网站信息

—-引用自”用Python写网络爬虫(Web Scraping with Python) “所有代码均用Python2.7编写– 检查robots.txt 大多数网站都会定义robots.txt文件，这样可以让爬虫了解爬去该网站是存在哪些限制。检查robots.txt文件可以最小化爬虫被封禁的可能，而且还能发现和网站结构相关的线索。– 检查网站地图网站提供的Sitemap文件（网站地图）
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。