最近需要twitter数据进行爬取,申请了开发者账号但是被拒了,没得办法,只能另寻它路,本文从研究分析开始记录一下成功爬到数据的完整的费劲过程。
一、分析tweetdeck网站
以下获取数据的链接均是获取到json数据,由于太长就没贴,有部分使用preview截了图,json.load即可使用
1、登录账号关注的人的tweets内容
平时使用tweetdeck看twitter,tweetdeck网站登录后可以看到关注的人的homeline的内容,如图
然后F12并刷新分析所需要的数据在哪里,经过查找发现这个链接可疑:
1.1首次请求数据的链接:
https://api.twitter.com/1.1/statuses/home_timeline.json?count=40&include_my_retweet=1&cards_platform=Web-13&include_entities=1&include_user_entities=1&include_cards=1&send_error_codes=1&tweet_mode=extended&include_ext_alt_text=true&include_reply_count=true
get请求
看一下preview:
展开看看:
这不就是想要的homeline的数据吗?还有full_text,哈哈,瞬间觉得这么简单?······不可能的,大问题在后面呢
再研究一下request的参数:
count: 40
include_my_retweet: 1
cards_platform: Web-13
include_entities: 1
include_user_entities: 1
include_cards: 1
send_error_codes: 1
tweet_mode: extended
include_ext_alt_text: true
include_reply_count: true
发现研究过twitter的这些参数应该很熟悉了
1.2更新数据的请求连接:
tweetdeck每隔几秒便请求一次数据有没有更新,如何请求呢,它不是每次都请求所有数据,看链接变化:
https://api.twitter.com/1.1/statuses/home_timeline.json?count=40&include_my_retweet=1&since_id=12***************&cards_platform=Web-13&include_entities=1&include_user_entities=1&include_cards=1&send_error_codes=1&tweet_mode=extended&include_ext_alt_text=true&include_reply_count=true
get请求
参数为:
count: 40
include_my_retweet: 1
since_id: 12------------
cards_platform: Web-13
include_entities: 1
include_user_entities: 1
include_cards: 1
send_error_codes: 1
tweet_mode: extended
include_ext_alt_text: true
include_reply_count: true
清晰地看到多了一个since_id即上一个请求拿到的数据中最新的那个id
1.3下滑滚动的数据请求链接:
由于页面的数据是动态加载的,边往下滚动边加载,发现请求了这个数据,看看如何实现的,上链接:
https://api.twitter.com/1.1/statuses/home_timeline.json?count=40&include_my_retweet=1&max_id=12************&cards_platform=Web-13&include_entities=1&include_user_entities=1&include_cards=1&send_error_codes=1&tweet_mode=extended&include_ext_alt_text=true&include_reply_count=true
get请求
参数:
count: 40
include_my_retweet: 1
max_id: 12**********
cards_platform: Web-13
include_entities: 1
include_user_entities: 1
include_cards: 1
send_error_codes: 1
tweet_mode: extended
include_ext_alt_text: true
include_reply_count: true
多了个max_id, 其实熟悉twitter api的都知道,这个是上次获取到的所有的id时间最早的那个id-1
2、搜索数据的获取
搜索一下“qazxsw",找一下数据链接
https://api.twitter.com/1.1/search/universal.json?q=qazxsw&count=40&modules=status&result_type=recent&pc=false&ui_lang=zh-CN&cards_platform=Web-13&include_entities=1&include_user_entities=1&include_cards=1&send_error_codes=1&tweet_mode=extended&include_ext_alt_text