Python学习
算球?
在校学生
展开
-
学习python写网络爬虫(一)
寻找网站所有者,可以使用WHOIS协议查看域名的注册者是谁。使用whois模块可以查看。 在linux在安装模块:pip install python-whois 在windows安装模块: 1. 下载模块并解压 2. 打开cmd,定位的解压模块目录 3. 运行命令:setup.py build setup.py install 4. 重新原创 2016-09-16 23:27:47 · 494 阅读 · 0 评论 -
学习python写网络爬虫(二)
通过网站地图爬取网站 Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。 csdn的robots.txt:http://www.csdn.net/robots.txt 在robots.txt里面有csdn的sitemap的地址import u原创 2016-09-17 09:44:43 · 946 阅读 · 0 评论 -
学习python写网络爬虫(三)
链接爬虫,通过跟踪页面内的链接,通过正则表达式来确定需要下载的页面的url,通过set来去除重复的链接# coding=utf-8import urllib2import reimport urlparsedef download(url, user_agent='wswp', num_retries=2): print 'Downloading:', url headers原创 2016-09-20 23:07:18 · 531 阅读 · 2 评论 -
学习python写网络爬虫(四)
python自带的robotparser模块可以解析robots.txt文件,可以使用urllib2来支持代理,但是python的http模块的requests来实现该功能会更友好。可以通过使用datetime模块和time模块在两次下载之间添加延时,可以防止被封禁。在爬取动态网页时,由于一些网站会动态生成页面内容,导致出现无限多网页,这样可能会无止境的链接下去,这种情况被称作 爬虫陷阱,只要给爬虫原创 2016-09-24 18:31:24 · 971 阅读 · 0 评论