填完笨方法学Python的坑,继续填Python爬虫的坑。
识别网站所用的技术
安装检查网站构建的技术类型——builtwith模块
试了一下
第一次是看百度首页没出来啥东西,然后试了书上的网址发生错误。最后看了一下豆瓣的.
查了一下
piwik是PHP和MySQL的开放源代码的Web统计软件,它卡伊给出一些关于网站的实用统计报告,比如:网页浏览人数、访问最多的页面、搜索引擎关键词等等。
使用的jQuery是JavaScript框架
寻找网站所有者
安装所需的封装库 python-whois
import whois
print(whois.whois('baidu.com'))
查了一下百度
中间太长,省略一堆。具体意思一知半解,可以看到域名归属Beijing Baidu Netcom Science Technology Co., Ltd(北京百度网通科技),国家是CN(中国)
编写第一个网络爬虫
其实开始计划学习笨方法之前,已经跑了几个爬虫的例子,使用的是requests库,感受了一下,感觉很有趣,所以入坑了。
3种爬取网站的常见方法:
爬取网站地图
遍历每个网页的数据库ID
跟踪网页链接
注意爬虫陷阱:一些网站会动态生成页面,这样就会出现无限多的网页,访问的时候页面会无止境的链接下去。
解决方法:记录到达当前网页经过了多少链接(也就是深度),当达到最大的深度的时候,就不再向队列添加改网页中的链接。
发现一个问题:这本书上的链接我都打不开。后续看看是不是要换一本书继续学习。