Python + selenium爬虫实例

最新推荐文章于 2024-05-10 16:25:53 发布

进击的蚂蚁甲

最新推荐文章于 2024-05-10 16:25:53 发布

阅读量5k

点赞数 3

分类专栏：爬虫文章标签： selenium

本文链接：https://blog.csdn.net/weixin_42946604/article/details/86346615

版权

爬虫专栏收录该内容

5 篇文章 4 订阅

订阅专栏

我这里用到了的python+selenium来抓取链家房数据，因为很多时候分析参数，头疼，能分析的还好
有些网页就很变态咯，参数都是经过加密的。
selenium自动化优点(我去找了一下度娘…哈哈)，完全可以模拟人工操作网页，而且相对其他爬虫不用写请求头、分析参数等(愉快)
例如直接request的，听说更容易被封(403)，我只是听说！
最后希望更大家互勉互力，一同进步！
现在跟大家分享一下python selenium的小知识…

1、安裝selenium
命令行：pip install selenium 敲回车
在这里插入图片描述

2、下载chromedriver插件，对应自己的版本
链接在此：http://chromedriver.storage.googleapis.com/index.html
在这里插入图片描述
直接放在Python的Scripts目录下就可以不能配置变量了，而且也不用声明路径
（后面会说到）
3、安装pyquery 一样的用到pip安装敲回车

命令行：pip install pyquery
4、安装pymysql
命令行：pip install pymysql 同上

5、以上安装完成后，开始我們的骚操作了。

1、网页分析

在这里插入图片描述

我们不用声明请求头还有分析一些参数了，只要我们拿到URL，指哪爬哪！
此次抓取的数据如下：在这里插入图片描述
那这些数据的提取正题就来了！
打开开发者工具，google浏览器直接挫F12

发现每个小区的售房信息都在ul下的li标签里面。直接上代码

第一步拿到html结构，然后用pyquery解析遍历li标签，我使用了items()方法
提取小区名称，找到a标签的class
在这里插入图片描述
提取房类的文本，span标签下面

其他的TEXT文本都是这样的方法提取
提醒的一点就是

我们这里判断一下ul的class，防止有时候网络加载的问题，导致发生错误。

模拟滚动，点击下一页小动作

我们每跳转一页就滚动一下滚动条，这个有好处的哦有时候很多异步加载的，例如一下ajax加载的就是很好的例子了，查看评论的时候很多是这样的！我们来看一下
在这里插入图片描述
这也是个方法，根据个人不同来定义，我这里以800来滚动。
然后就是点击下一页的动作，网页有下一页的

代码实现直接上图

一些其他的小动作，可以自己添加哦！

数据存储

我这里用mysql存放数据，上图在这里插入图片描述
我提前把数据表建好了的，表名为lianjie_data，数据库名是lianjie，这里根据个人情况。
你可以写一个data_save的方法，我这里简单粗暴点从上到下直接写完了。
好了运行程序

数据展示

在这里插入图片描述
是不是完完全全模拟人工操作呢，其实我没加太多动作嘻嘻
源码后续放出来，也会写一些更多的小知识更大家分享

进击的蚂蚁甲

关注

3
点赞
踩
39

收藏

觉得还不错? 一键收藏
2
评论
Python + selenium爬虫实例

1、安裝selenium命令行：pip install selenium 敲回车2、下載chromedriver插件，對應自己的版本鏈接在此：http://chromedriver.storage.googleapis.com/index.html直接放在Python的Scripts目录下就可以不能配置变量了，而且也不用声明路径（后面会说到）3、安裝pyquery 一样的用到p...
复制链接

扫一扫

专栏目录