python不用api爬twitter

最新推荐文章于 2024-06-26 15:48:22 发布

置顶

蓝之赟

最新推荐文章于 2024-06-26 15:48:22 发布

阅读量2.6k

点赞数

分类专栏： python python爬虫文章标签： python twitter

本文链接：https://blog.csdn.net/u010458948/article/details/105516333

版权

最近需要twitter数据进行爬取，申请了开发者账号但是被拒了，没得办法，只能另寻它路，本文从研究分析开始记录一下成功爬到数据的完整的费劲过程。

一、分析tweetdeck网站

以下获取数据的链接均是获取到json数据，由于太长就没贴，有部分使用preview截了图，json.load即可使用

1、登录账号关注的人的tweets内容

平时使用tweetdeck看twitter，tweetdeck网站登录后可以看到关注的人的homeline的内容，如图

然后F12并刷新分析所需要的数据在哪里，经过查找发现这个链接可疑：

1.1首次请求数据的链接：

https://api.twitter.com/1.1/statuses/home_timeline.json?count=40&include_my_retweet=1&cards_platform=Web-13&include_entities=1&include_user_entities=1&include_cards=1&send_error_codes=1&tweet_mode=extended&include_ext_alt_text=true&include_reply_count=true

get请求

看一下preview：

展开看看：

这不就是想要的homeline的数据吗？还有full_text，哈哈，瞬间觉得这么简单？······不可能的，大问题在后面呢

再研究一下request的参数：

count: 40
include_my_retweet: 1
cards_platform: Web-13
include_entities: 1
include_user_entities: 1
include_cards: 1
send_error_codes: 1
tweet_mode: extended
include_ext_alt_text: true
include_reply_count: true

发现研究过twitter的这些参数应该很熟悉了

1.2更新数据的请求连接：

tweetdeck每隔几秒便请求一次数据有没有更新，如何请求呢，它不是每次都请求所有数据，看链接变化：

https://api.twitter.com/1.1/statuses/home_timeline.json?count=40&include_my_retweet=1&since_id=12***************&cards_platform=Web-13&include_entities=1&include_user_entities=1&include_cards=1&send_error_codes=1&tweet_mode=extended&include_ext_alt_text=true&include_reply_count=true

get请求

参数为：

count: 40
include_my_retweet: 1
since_id: 12------------
cards_platform: Web-13
include_entities: 1
include_user_entities: 1
include_cards: 1
send_error_codes: 1
tweet_mode: extended
include_ext_alt_text: true
include_reply_count: true

清晰地看到多了一个since_id即上一个请求拿到的数据中最新的那个id

1.3下滑滚动的数据请求链接：

由于页面的数据是动态加载的，边往下滚动边加载，发现请求了这个数据，看看如何实现的，上链接：

https://api.twitter.com/1.1/statuses/home_timeline.json?count=40&include_my_retweet=1&max_id=12************&cards_platform=Web-13&include_entities=1&include_user_entities=1&include_cards=1&send_error_codes=1&tweet_mode=extended&include_ext_alt_text=true&include_reply_count=true

get请求

参数：

count: 40
include_my_retweet: 1
max_id: 12**********    
cards_platform: Web-13
include_entities: 1
include_user_entities: 1
include_cards: 1
send_error_codes: 1
tweet_mode: extended
include_ext_alt_text: true
include_reply_count: true

多了个max_id, 其实熟悉twitter api的都知道，这个是上次获取到的所有的id时间最早的那个id-1

2、搜索数据的获取

搜索一下“qazxsw"，找一下数据链接

https://api.twitter.com/1.1/search/universal.json?q=qazxsw&count=40&modules=status&result_type=recent&pc=false&ui_lang=zh-CN&cards_platform=Web-13&include_entities=1&include_user_entities=1&include_cards=1&send_error_codes=1&tweet_mode=extended&include_ext_alt_text

最低0.47元/天解锁文章

蓝之赟

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
3
评论
python不用api爬twitter

最近需要twitter数据进行爬取，申请了开发者账号但是被拒了，没得办法，只能另寻它路，平时使用tweetdeck看twitter，所以针对twitter研究入手，本文从研究分析开始记录一下完整的费劲过程。目录一、分析tweetdeck网站1、登录账号关注的人的tweets内容1.1首次请求数据的链接：1.2更新数据的请求连接：1.3下滑滚动的数据请求链接：2、搜索数据...
复制链接

扫一扫