一个使用 selenium 模块爬取（Twitter、New York Times）网站的可配置爬虫代码

最新推荐文章于 2024-08-31 02:12:00 发布

masonsxu

最新推荐文章于 2024-08-31 02:12:00 发布

阅读量2.3k

点赞数

分类专栏：学习笔记文章标签： python selenium 爬虫 twitter

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/one_a_xiaobai/article/details/109357608

版权

学习笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Selenium_Crawler

一个使用 selenium 模块爬取（Twitter、New York Times）网站的可配置爬虫代码

代码更新

3/11/2021

修改报错信息不明确的bug
更新twitter_crawler.py代码中的各字段class属性名称
因为网站源代码中结构的变化，最开始使用的类似class类似的属性名称有时会发生改变，需要重新更正
1. 更正样例
2. 字段class属性信息如何确认
  1. 使用Chrome浏览器访问URl，右键打开检查（快捷键F12）

2020/10/29

修改了每次爬取时覆盖上次爬取的文件的bug
修改了项目文件目录结构

使用方式

文件夹中的文件分别对应内容

New_York_Times_Crawler：存 New York Tiems 的爬虫代码

New_York_Times_Data：存放成功爬取的数据，格式分别为 csv 和 excel

news_crawler.py： New York Tiems 的爬虫代码

news_url.txt：存放想要爬取的 New York Tiems 的 url 地址（可以放置多条地址）

Twitter_Crawler：存放 Twitter 的爬虫代码

TwitterData：存放成功爬取的数据，格式分别为 csv 和 excel

twitter_crawler.py：Twitter 的爬虫代码

twitter_url.txt：存放想要爬取的 Twitter 的 url 地址（可以放置多条地址）

爬虫所对应的网站的网页结构

New York Tiems

Twitter

准备运行代码

Selenium 模块

本代码使用的是 Python 中的 Selenium 模块，如果没有 Selenium 模块的使用经验的话请浏览https://www.cnblogs.com/linhaifeng/articles/7783599.html中的有界浏览器使用方式。

可能会遇到的问题

Twitter 和 New York Times 访问速度过慢

爬虫代码中断

解决方法

访问速度过慢的话，这个没有办法帮你，网络环境的问题请自行查找解决办法

爬虫代码中断，一般情况下，网络环境没问题，设置的 URL 完整的话不会出现爬虫代码中断的错误，遇到的话请多跑几遍代码在询问，并附上错误信息

代码开源地址

https://github.com/masonsxu/Selenium_Crawler

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
15
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 15

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。