【Twitter爬虫】Twitter网络爬虫

利用selenium爬取Twitter

从2月9日起,Twitter不再支持免费访问Twitter API,继续使用Twitter API支付较高的费用。下面将介绍一种绕过Twitter API爬取推文的方式

Selenium Webdriver框架

首先介绍一下Selenium Webdriver,这是一款web自动化测试框架,可以利用它在web浏览器上模拟。下面演示下在python中如何引入selenium模块

from selenium import webdriver

实例化配置对象

options = webdriver.ChromeOptions()

配置对象开启无界面模式

options.add_argument("--headless")

实例化带有配置对象的driver对象

driver = webdriver.Chrome('chromedriver', options=options)

进入Twitter页面

Twitter首页 Twitter首页

driver.get('https://twitter.com/home')

登陆Twitter

先在网页上登陆自己的twitter账号,然后把cookies取出来并

cookies=[] #你的cookies
for cookie in cookies:
    driver.add_cookie(cookie)

接下来就可以自由访问twitter啦

爬取Twitter

url = f"https://twitter.com/search?q=hello&src=typed_query"
driver.get(url)

利用BeautifulSoup对网页进行分析

from bs4 import BeautifulSoup
html = driver.page_source
soup = BeautifulSoup(html, "html.parser")

F12查看网页源码,可以看到每条推文的内容都写在红框标出来的区域里面
![在这里插入图片描述](https://img-blog.csdnimg.cn/f3e2d0857a0c40dc858f3c10b2f73b13.png
因此,我们先找出所有为这个属性的元素

tweets = soup.find_all("div", {'data-testid': "cellInnerDiv"})

然后我们再继续找推文内容的属性
在这里插入图片描述
提取推文内容

for tweet in tweets:
 	content = container.find('div', {'data-testid': "tweetText"}).text
 	print(content)
  • 5
    点赞
  • 54
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Twitter爬虫是一种用于从Twitter社交媒体平台上收集和提取信息的程序。它可以自动化地搜索和抓取特定的推文、用户信息、主题趋势等内容,以供进一步的分析和应用。以下是关于Twitter爬虫的一些重要信息。 首先,Twitter爬虫的目的是为了获取有关特定事件、话题或用户的数据。它可以根据关键字、用户名、特定时间段等条件进行搜索和抓取。通过提供合适的参数和筛选规则,用户可以有效地收集到所需的信息。 其次,Twitter爬虫使用API来与Twitter平台进行通信。API是一组提供数据和功能的接口,允许开发者构建自定义应用程序。Twitter的API提供了获取推文、用户信息、趋势话题等数据的功能。爬虫可以通过API请求数据,并使用解析工具来提取和处理所需的信息。 此外,使用Twitter爬虫需要一些技术知识和编程能力。开发者需要了解编程语言(如Python),以及相关的库和工具(如Tweepy)。Tweepy是一个在Python中使用Twitter API的库,可以大大简化爬虫的开发过程。 然而,使用Twitter爬虫也需要遵守一些规则和限制。Twitter有一些使用限制,包括每15分钟最多请求150次数据、在某些情况下需要身份验证等。在开发和使用爬虫时,必须遵守这些限制,以避免违反Twitter的使用政策。 总之,Twitter爬虫是一种方便获取Twitter数据的工具。它可以帮助用户从海量的推文和用户信息中提取有价值的数据,并用于各种分析和应用领域。尽管使用爬虫时需要遵守一些规则和限制,但它仍然是一个强大而实用的工具。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值