推特开发者 elevated academic 学术【推特开发者文档V2系列5】——tweepy4 自动翻页爬取推文

最新推荐文章于 2023-10-07 21:34:37 发布

littleBoy777

最新推荐文章于 2023-10-07 21:34:37 发布

阅读量505

点赞数

分类专栏：推特爬虫推特开发者推特数据采集文章标签： twitter 爬虫 python

本文链接：https://blog.csdn.net/li123_123_/article/details/121591239

版权

推特开发者同时被 3 个专栏收录

28 篇文章 3 订阅

订阅专栏

推特爬虫

21 篇文章 2 订阅

订阅专栏

推特数据采集

7 篇文章 0 订阅

订阅专栏

关于推特开发者账号 elevated academic 请看此贴：

推特开发者账号申请权限

或

搜索微信公众号 twitterDeveloper 获得帮助

tweepy怎么用看这里：
使用tweepy4 搜索历史推文

文档：https://docs.tweepy.org/en/stable/client.html#tweets

根据之前的文章，有的小伙伴要问了，如果我要根据关键字爬取所有满足条件的推文，怎么让程序一直运行下去，把次数往大了写么？

其实tweepy提供了一个变量: next_token，只需要在下一次请求中加上这个变量，程序就会持续不断的运行。

如何使用这个变量呢，比如加到这里：搜索关键字Trump并且指定日期的历史推文

代码如下：

import tweepy
import os
import time

bear_token = 'XXXXX'
client = tweepy.Client(bear_token)
tweets_fields_list = ['created_at','id','text']

first_data = client.search_all_tweets(query="Trump -is:retweet",
                                 tweet_fields=tweets_fields_list,
                                 end_time='2018-10-02T15:00:00Z',
                                 start_time = "2018-09-02T15:00:00Z",
                                 max_results=10)  #max_results最大可以设为500，为了方便调试这里设置成10

print(first_data.meta["next_token"])
first_token = first_data.meta["next_token"]  #获取next_token变量，以便传入到循环中

time.sleep(9) #设置sleep防止报too many错误
for response in tweepy.Paginator(client.search_all_tweets, query="Trump -is:retweet",
                                 tweet_fields=tweets_fields_list,
                                 end_time='2018-10-02T15:00:00Z',
                                 start_time = "2018-09-02T15:00:00Z",
                                 max_results=10, next_token = first_token):
    #print(response.includes)
    for tweet in response.data:
        print(tweet.id,tweet.created_at,tweet.text)
    first_token = response.meta["next_token"]  #更新next_token变量
    time.sleep(9) #设置sleep防止报too many错误