Python爬虫
HBLQ_GK
做一个健康快乐的程序员!
展开
-
记一个简单的增量式爬虫方案
最近在玩爬虫,于是基于以下需求场景设计了一个简单并且验证可用的增量式爬虫方案。场景需要爬取多个同类型的网站数据网站数据持续、不定期更新数据量不太大,每日更新几千获取到的数据可以用来玩(数据分析等等),嘿嘿对于这种类型的需求,先捋捋需要考虑的问题:数据如何去重怎样的存储方案我的设计方案如图:爬虫通过一个定时任务以多线程启动,爬取的数据直接放入消息队列等待下一步处理第二个定时任务将消息队列中的数据定时取出放入源数据层,这个定时任务有一个很关键的任务就是去重,在放入源数据层中先原创 2020-05-25 23:25:15 · 579 阅读 · 0 评论 -
python网络爬虫爬取房价信息
爬取房天下(http://newhouse.cd.fang.com/house/s/)成都地区的新房信息。打开http://newhouse.cd.fang.com/house/s/,F12进入控制台点击控制台的左上角的按钮,这是你可以将鼠标移至房天下页面的任何一个地方然后单击,你就可以看到该地方在html代码中的位置,比如:我点击红色区域的文本,那么在控制台中就会出现该文本在html...原创 2018-06-02 15:15:45 · 6678 阅读 · 3 评论 -
python爬虫数据(中国人口信息)存入MYSQL数据库
爬取网站:http://www.china-10.com/news/488659.html代码以及注释如下:import requestsfrom bs4 import BeautifulSoupimport reimport MySQLdb#连接数据库db = MySQLdb.connect("localhost","root","123456","lianxi"...原创 2018-06-03 21:30:21 · 5146 阅读 · 0 评论 -
python爬取拉钩网招聘信息
拉钩网网址为:https://www.lagou.com/点击F12进入控制台观察结构,发现所有的招聘内容都在此json文件中:注意headers中的请求url以及请求方法:还有表单数据:获取以上信息后,基本就可以开始爬取工作,注意,拉钩网有反爬机制,所以需要使用cookie,referer,user-agent模拟浏览器登录。代码如下:#导入模块...原创 2018-06-07 20:23:01 · 2496 阅读 · 2 评论 -
实现一个免费的IP代理池
我将代理池程序设计为4个模块:存储模块,获取模块,检查模块,接口模块。模块之间关系如下:存储模块:我使用的是redis数据库存储,使用的是redis中的集合,集合内元素无序并且无重复。该存储模块的主要功能就是存入可用代理,删除不可用代理,随机提取可用代理,获取所有可用代理,获取当前可用代理数量。获取模块:该模块主要功能是定时对网上的免费代理网站进行爬取。检查模块:检查模块主要有两个...原创 2019-10-17 18:01:18 · 10308 阅读 · 0 评论 -
Python爬虫爬取懂球帝足球新闻(分类,分标签,多页,存数据库,去重)
爬虫目标网址:https://www.dongqiudi.com/news打开网址后向下滑动看到我即将爬取的国际新闻板块咦?说好的五大联赛的呢?看不起法甲?好吧,将就一下,就爬取“欧洲四大联赛的新闻”:英超,西甲,意甲,德甲。这四个小板块的结构肯定都是一样的,所以我们分析一个就可以了,这里以英超为例。点开英超新闻板块向下滑动新闻列表,可以看到加载下一页的按钮点击即加载下...原创 2019-10-14 15:47:10 · 4542 阅读 · 2 评论