Python爬虫
文章平均质量分 80
padluo
这个作者很懒,什么都没留下…
展开
-
Python爬虫实战之爬取链家广州房价_03存储
问题引入系列目录:Python爬虫实战之爬取链家广州房价_01简单的单页爬虫Python爬虫实战之爬取链家广州房价_02把小爬虫变大这一小节主要讲一下前面一直没有实现的存储,存储主要分两大类:文件和数据库。结合这次爬虫的数据量及后期分析的需要,这次主要介绍SQLite。思路介绍通过对SQLite数据库的封装,处理多线程的写入。Python的DB-API接口主要处理Connection对象和Curso原创 2017-03-02 09:01:07 · 2057 阅读 · 0 评论 -
Python爬虫实战之爬取链家广州房价_01简单的单页爬虫
思路介绍爬取链家广州所有小区信息、在售楼盘及所有历史成交记录,对于超过100个页面的信息,采用曲线爬取的方式,先爬每个小区,然后爬每个小区的在售楼盘及成交记录,后期将进行相应更新,进一步研究Cookie的使用、Proxy(代理)的设置、模拟登录、验证码识别等问题。环境基于Python 2.7。请求这里我使用的package是urllib和urllib2,这里列一下爬取过程中需要注意的一些问题。原创 2017-02-22 15:56:35 · 2558 阅读 · 0 评论 -
Python爬虫实战之爬取链家广州房价_02把小爬虫变大
问题引入上一小节简单介绍了单个页面的爬取,涉及到请求和解析两个模块,其中请求使用urllib,解析使用BeautifulSoup,爬取了链家的单个页面,处理了我们想要的页面元素,输出到控制台。我们通过浏览器上网打开页面,来源有两种,一种是已知的地址,如Google,另一种是通过前面爬下来的页面中获取入口,如a标签中的href属性值。通过爬虫自动化获取浏览器可以获取的数据,要模拟浏览器的行为,获取更多原创 2017-02-24 09:38:58 · 1120 阅读 · 0 评论 -
Python爬虫实战之爬取链家广州房价_04链家的模拟登录(记录)
问题引入开始链家爬虫的时候,了解到需要实现模拟登录,不登录不能爬取三个月之内的数据,目前暂未验证这个说法是否正确,这一小节记录一下利用浏览器(IE11)的开发者工具去分析模拟登录网站(链家)的内部逻辑过程,花了一个周末的时间,部分问题暂未解决。思路介绍利用浏览器(IE11)的开发者工具,启用网络流量捕获,在调试之前,先做一些配置上的准备工作:清除旧的cookie和缓存,禁用跳转后清除日志(Firef原创 2017-03-03 19:42:03 · 3170 阅读 · 0 评论 -
搜狗词库爬虫(1):基础爬虫架构和爬取词库分类
基础爬虫架构基础爬虫框架主要包括五大模块:爬虫调度器、URL管理器、网页下载器、网页解析器、数据存储器。爬虫调度器:启动、执行、停止爬虫,统筹其他模块的协调工作。URL管理器:管理已爬取的URL和未爬取的URL这两个数据,提供获取新URL链接的接口。网页下载器:将URL管理器提供的一个URL对应的网页下载下来,存储为字符串,这个字符串传送给网页解析器进行解析。网页解析器:从网页下载器中获取已经下载的原创 2017-09-22 20:42:56 · 2102 阅读 · 0 评论 -
搜狗词库爬虫(2):基础爬虫框架的运行流程
项目的Github地址:https://github.com/padluo/sogouSpider各模块对应的内容如下:getCategory.py,提取词库分类ID和名字,以字典形式返回。SpiderMan.py,爬虫调度器。UrlManager.py,URL管理器。HtmlDownloader.py,网页下载器。HtmlParser.py,网页解析器。DataOutput.py,数据存储器。So原创 2017-09-24 16:03:58 · 862 阅读 · 0 评论