一个使用 selenium 模块爬取(Twitter、New York Times)网站的可配置爬虫代码

Selenium_Crawler

一个使用 selenium 模块爬取(Twitter、New York Times)网站的可配置爬虫代码

代码更新

3/11/2021

  1. 修改报错信息不明确的bug
  2. 更新twitter_crawler.py代码中的各字段class属性名称
  3. 因为网站源代码中结构的变化,最开始使用的类似class类似的属性名称有时会发生改变,需要重新更正
    1. 更正样例
      1. image-20210311095511000
    2. 字段class属性信息如何确认
      1. 使用Chrome浏览器访问URl,右键打开检查(快捷键F12
      2. image-20210311100559403

2020/10/29

  1. 修改了每次爬取时覆盖上次爬取的文件的bug
  2. 修改了项目文件目录结构

使用方式

image-20201029113954488

文件夹中的文件分别对应内容

New_York_Times_Crawler:存 New York Tiems 的爬虫代码

New_York_Times_Data:存放成功爬取的数据,格式分别为 csv 和 excel

news_crawler.py: New York Tiems 的爬虫代码

news_url.txt:存放想要爬取的 New York Tiems 的 url 地址(可以放置多条地址)

Twitter_Crawler:存放 Twitter 的爬虫代码

TwitterData:存放成功爬取的数据,格式分别为 csv 和 excel

twitter_crawler.py:Twitter 的爬虫代码

twitter_url.txt:存放想要爬取的 Twitter 的 url 地址(可以放置多条地址)

爬虫所对应的网站的网页结构

New York Tiems

地址样例

image-20201029125538757

Twitter

地址样例

image-20201029130119525

准备运行代码

Selenium 模块

本代码使用的是 Python 中的 Selenium 模块,如果没有 Selenium 模块的使用经验的话请浏览https://www.cnblogs.com/linhaifeng/articles/7783599.html中的有界浏览器使用方式。

可能会遇到的问题

Twitter 和 New York Times 访问速度过慢

爬虫代码中断

解决方法

访问速度过慢的话,这个没有办法帮你,网络环境的问题请自行查找解决办法

爬虫代码中断,一般情况下,网络环境没问题,设置的 URL 完整的话不会出现爬虫代码中断的错误,遇到的话请多跑几遍代码在询问,并附上错误信息

代码开源地址

https://github.com/masonsxu/Selenium_Crawler

评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值