Python爬虫
文章平均质量分 85
二哥不像程序员
公众号:数据山谷
展开
-
用Python实现全国二手房数据抓取+地图展示
最近各种政策的出台,导致二手房的价格波动巨大,本文二哥来带领大家通过链家二手房为例,简单分析一下全国多个地区的二手房价格。 【建议先点赞、再收藏】 一、思路❤️ 想要获取链家全国二手房的信息,首先我们进入到相关的二手房页面观察一下(以北京为例): 这里可以看到,我们能够看到北京的二手房信息,但是并没有其他省份和城市的选项,因此回到首页寻找各大城市的选项,通过点击首页左上角的城市按钮,可以进入到相关的省份-城市页面: 有了省份-城市页面之后,我们就可以通过该页面获取各个城市的url信息,然后再访问各个.原创 2021-08-20 17:30:31 · 2221 阅读 · 8 评论 -
给我爬!三天掌握Scrapy(二)
在三天掌握Scrapy(一)中我们简单的介绍了Scrapy的实现原理,并且搭建了一个使用Scrapy的小小爬虫,本文让我们来深入了解一下Scrapy。 一、翻页实现 很多时候我们在网页中爬取的内容都需要进行翻页的操作,下面我们来了解一下如何用Scrapy来实现翻页操作。 想要实现翻页操作,我们就要找到下一页对应的url地址,找到了地址之后构造出url对应的请求对象,然后传递给引擎就可以了。 找到页码的url 构造url对应的请求对象scrapy.Request(url,callback) call.原创 2021-07-31 18:45:55 · 1013 阅读 · 15 评论 -
给我爬!3天掌握Scrapy(一)
大家好,欢迎来到二哥的爬虫频道,本次二哥准备放弃周末爆更三天给大家带来Scrapy教程,记得三连呦~ 一、认识Scrapy原创 2021-07-25 15:38:42 · 3414 阅读 · 33 评论 -
Python爬虫|反爬初体验
前言:使用Python爬虫是当下最火的一种获取数据的方式,当我们对一些小型网站进行爬取的时候往往没什么阻碍,而当我们爬取大型网站的时候经常会遇到禁止访问、封禁IP的情况,这也是我们触发反爬机制的体现,本文二哥来带领大家了解几种简单高效的反爬对策。 目录 一、浏览器模拟(Headers) 二、IP代理 三、Cookies模拟 一、浏览器模拟(Headers) 浏览器模拟是最常用的一种反爬方式。设想一下:一个网站不停的被同一个版本的浏览器频率的访问,那大概了就要被认为是机器人了。所以上有政策.原创 2021-07-10 15:52:16 · 2351 阅读 · 13 评论