python自学笔记(9)--《用python写网络爬虫》之网站背景调研

python自学笔记(9)--《用python写网络爬虫》之网站背景调研


1.估算网站大小
为了了解爬取某个网站的爬取效率,判断是否需要使用分布式下载来提高爬取效率,所以要了解网站的体量到底有多大。
看了《用python写网络爬虫》中描述使用谷歌搜索来判断网站大小,发现谷歌被屏蔽了,然后就试了试使用百度搜索可以估算一个网站大致的大小
比如要调查hao123网址的大小,可以百度搜索如下”site:www.hao123.com”调查结果大概有12,386,154 个站点页面。
 


使用谷歌如何估算网站大小的方法可以参考:
http://blog.csdn.net/zhujianing1993/article/details/66257760



2.识别网站所用技术
不同的网站技术对爬取会产生不同的影响,所以要了解你要爬取的网站所使用的技术。具体方法如下:
(1)安装builtwith模块,
(2)编写代码如下:

import builtwith
print(builtwith.parse('http://blog.csdn.net/'))
'''
running result:
{'web-servers': ['OpenResty', 'Nginx'],
 'programming-languages': ['Lua'], 
 'javascript-frameworks': ['Modernizr', 'jQuery'], 
 'web-frameworks': ['Twitter Bootstrap']}
'''


上面代码可以看出,csdn博客网站使用的语言是Lua语言,网站框架使用Twitter Bootstrap前端框架。


3.寻找网站所有者
有些网站我坑会关心所有者是谁,比如已知网站的所有者会封禁网络爬虫,那么我们的下载速度和频率最好控制的更保守。我们可使用WHOIS协议查询域名的注册者是谁。方法如下:
(1)安装whois模块
(2)编写代码如下:

import whois
print(whois.whois("www.hao123.com"))
'''
running result:
{
  ……
  "emails": [
    "abusecomplaints@markmonitor.com",
    "domainmaster@baidu.com"
  ],
  "dnssec": "unsigned",
  "name": "Domain Admin",
  "org": "Baidu Online Network Technology Co.Ltd",
  "address": "3F Baidu Campus No.10, Shangdi 10th Street Haidian District",
  "city": "Beijing",
  "state": "Beijing",
  "zipcode": "100085",
  "country": "CN"
}
'''


可以看出这个网站属于百度"org": "Baidu Online Network Technology Co.Ltd"。
















评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值