python自学笔记（9）--《用python写网络爬虫》之网站背景调研

最新推荐文章于 2024-08-20 13:16:22 发布

一棵开花的树

最新推荐文章于 2024-08-20 13:16:22 发布

阅读量611

点赞数 1

本文链接：https://blog.csdn.net/kanyueliang410/article/details/78717920

版权

python自学笔记（9）--《用python写网络爬虫》之网站背景调研

1.估算网站大小
为了了解爬取某个网站的爬取效率，判断是否需要使用分布式下载来提高爬取效率，所以要了解网站的体量到底有多大。
看了《用python写网络爬虫》中描述使用谷歌搜索来判断网站大小，发现谷歌被屏蔽了，然后就试了试使用百度搜索可以估算一个网站大致的大小
比如要调查hao123网址的大小，可以百度搜索如下”site:www.hao123.com”调查结果大概有12,386,154 个站点页面。

使用谷歌如何估算网站大小的方法可以参考：
http://blog.csdn.net/zhujianing1993/article/details/66257760

2.识别网站所用技术
不同的网站技术对爬取会产生不同的影响，所以要了解你要爬取的网站所使用的技术。具体方法如下：
（1）安装builtwith模块，
（2）编写代码如下：

import builtwith
print(builtwith.parse('http://blog.csdn.net/'))
'''
running result:
{'web-servers': ['OpenResty', 'Nginx'],
 'programming-languages': ['Lua'], 
 'javascript-frameworks': ['Modernizr', 'jQuery'], 
 'web-frameworks': ['Twitter Bootstrap']}
'''

上面代码可以看出，csdn博客网站使用的语言是Lua语言，网站框架使用Twitter Bootstrap前端框架。

3.寻找网站所有者
有些网站我坑会关心所有者是谁，比如已知网站的所有者会封禁网络爬虫，那么我们的下载速度和频率最好控制的更保守。我们可使用WHOIS协议查询域名的注册者是谁。方法如下：
（1）安装whois模块
（2）编写代码如下：

import whois
print(whois.whois("www.hao123.com"))
'''
running result:
{
  ……
  "emails": [
    "abusecomplaints@markmonitor.com",
    "domainmaster@baidu.com"
  ],
  "dnssec": "unsigned",
  "name": "Domain Admin",
  "org": "Baidu Online Network Technology Co.Ltd",
  "address": "3F Baidu Campus No.10, Shangdi 10th Street Haidian District",
  "city": "Beijing",
  "state": "Beijing",
  "zipcode": "100085",
  "country": "CN"
}
'''

可以看出这个网站属于百度"org": "Baidu Online Network Technology Co.Ltd"。