菜鸟学Python
文章平均质量分 55
开挖掘机写代码
这个作者很懒,什么都没留下…
展开
-
轻量级爬虫开发(三)
个人的第三篇博客,继续视频学习,感兴趣的小伙伴可以查看这个视频链接https://www.imooc.com/video/10680/0,所有的图片均为视频截图,如果涉及版权问题,请联系删除。四、网页下载器及urllib2模块1、网页下载器是爬虫的核心组件、将互联网上URL对应的网页下载到本地,类似于网页浏览器,将URL对应的网页以HTML的形式下载到本地,存储成本地文件或内存字符串。...原创 2018-12-02 17:34:00 · 162 阅读 · 0 评论 -
轻量级爬虫开发(backup)——urllib库介绍1
前文提到过urllib2库,此处做简单的学习和总结。urllib2是Python 2.7自带的库,无需下载,使用时导入即可,urllib2 官方文档:https://docs.python.org/2/library/urllib2.html在Python 3.x中,为urllib,由于我使用的是Python 3.6,故后期实践中应用urlliburllib官方文档:https:...原创 2018-12-10 21:24:33 · 98 阅读 · 0 评论 -
轻量级的爬虫开发(一)
主要内容包括:1. 爬虫简介2. 简单爬虫架构3. URL管理器4. 网页下载器(urllib2)5.网页解析器(BeautifulSoup)6.完整实例-爬取百度百科python相关的1000个页面数据备注:本系列是观看慕课网《轻量级的爬虫开发》学习笔记,感兴趣的可以查看视频教程https://www.imooc.com/video/10676/0一、爬虫简介...原创 2018-11-27 21:59:34 · 267 阅读 · 0 评论 -
轻量级爬虫开发(二)
个人的第二篇博客,继续视频学习,感兴趣的小伙伴可以查看这个视频链接https://www.imooc.com/video/10680/0,所有的图片均为视频截图,如果涉及版权问题,请联系删除。二、简单爬虫架构-动态运行流程运用时序图解释,时序图中包括调度器、URL管理器、下载器、解析器、应用首先,调度器询问URL管理器是否有待爬取的URL,URL管理器返回是或者否,如果有待爬取的URL...原创 2018-12-01 22:09:16 · 176 阅读 · 0 评论