python-爬虫
wangs0622
这个作者很懒,什么都没留下…
展开
-
python 爬虫-1:下载网页源代码
下载静态网页源代码的 python 爬虫函数源代码:import urllib2def download(url, num_retries = 5): ''' function: 下载网页源代码,如果遇到 5xx 错误状态,则继续尝试下载,直到下载 num_retries 次为止。 ''' print "downloading " , url try:原创 2017-08-07 09:42:52 · 1731 阅读 · 0 评论 -
python 爬虫-2:添加用户代理和延时下载
编写 python 爬虫函数,为函数添加延时下载和用户代理。原创 2017-08-08 18:00:24 · 2074 阅读 · 0 评论 -
python 爬虫-3:id 遍历爬虫
简单的分析网页,根据分析的结果,编写 id 遍历爬虫下载图片。 程序的 main 函数如下:def main(): import itertools throttle = Throttle(10) start_url = 'http://www.mm131.com/xinggan/1550.html' max_num = 10 counter = 0原创 2017-08-08 19:09:49 · 1196 阅读 · 0 评论 -
python 爬虫-0:我的计划
最近在微信公众号上看到一篇文章,将的是爬虫的的 学习历程,于是按照自己的理解,我对自己 python 爬虫学习定了一个初步的学习计划,如下:具体详情见: www.wangs0622.com原创 2017-08-09 13:56:59 · 295 阅读 · 0 评论 -
python 爬虫4:正则表达式介绍
之前的内容已经介绍了如何简单的下载网页源代码,下载完网页源代码后,我们就需要在网页源代码中找到我们想要的数据。找的过程不可我们自己手动去找,或者粘贴到办公软件中去查找,这样效率太低。python 常用的有 正则表达式 re, beautifulsoup4 和 lxml。这节首先介绍正则表达式。什么是 正则表达式原创 2017-08-10 15:56:40 · 228 阅读 · 0 评论