python
a2437383438
这个作者很懒,什么都没留下…
展开
-
我的第一个爬虫
我的第一个爬虫# coding:utf-8#爬糗事百科等段子,有如下功能,自动获得总页数,爬取每页段子过滤掉图片段子,自动创建TXT文件,将每页段子写入对应文件import urllibimport urllib2import reimport sysreload(sys)sys.setdefaultencoding('utf-8')# 有这个才原创 2017-10-19 21:16:51 · 226 阅读 · 0 评论 -
今天发现的一个有用的爬虫视频,对静态网页爬取整体关系有很好的讲解
http://www.imooc.com/learn/563有点是比较清楚的介绍了爬虫结构,让我对爬虫有了比较全面的了解。比较有用内容摘要(一):爬虫调度端:用来启动、停止、和监视爬虫URL管理:对等待爬取和已经爬取的URL进行管理,简单来说就是为后续模块提供可供爬取的URL网页下载器:将供爬取的URL的网页下载下来,组成供解析的字符串网页解析器:将字符串解析以原创 2017-10-22 22:49:22 · 3479 阅读 · 0 评论