python不用api爬twitter

最近需要twitter数据进行爬取,申请了开发者账号但是被拒了,没得办法,只能另寻它路,本文从研究分析开始记录一下成功爬到数据的完整的费劲过程。

一、分析tweetdeck网站

1、登录账号关注的人的tweets内容

1.1首次请求数据的链接:

1.2更新数据的请求连接:

1.3下滑滚动的数据请求链接:

2、搜索数据的获取

3、指定用户timeline的获取

二、开始爬取

1、查看数据链接需要的参数

2、获取用户的登录cookies

三、爬取数据的代码

1、爬取关注用户的tweets

2、爬取指定用户的homeline

3、爬取搜索结果


一、分析tweetdeck网站

以下获取数据的链接均是获取到json数据,由于太长就没贴,有部分使用preview截了图,json.load即可使用

1、登录账号关注的人的tweets内容

平时使用tweetdeck看twitter,tweetdeck网站登录后可以看到关注的人的homeline的内容,如图

然后F12并刷新分析所需要的数据在哪里,经过查找发现这个链接可疑:

1.1首次请求数据的链接:

https://api.twitter.com/1.1/statuses/home_timeline.json?count=40&include_my_retweet=1&cards_platform=Web-13&include_entities=1&include_user_entities=1&include_cards=1&send_error_codes=1&tweet_mode=extended&include_ext_alt_text=true&include_reply_count=true

get请求

看一下preview:

展开看看:

这不就是想要的homeline的数据吗?还有full_text,哈哈,瞬间觉得这么简单?······不可能的,大问题在后面呢

再研究一下request的参数:

count: 40
include_my_retweet: 1
cards_platform: Web-13
include_entities: 1
include_user_entities: 1
include_cards: 1
send_error_codes: 1
tweet_mode: extended
include_ext_alt_text: true
include_reply_count: true

发现研究过twitter的这些参数应该很熟悉了

1.2更新数据的请求连接:

tweetdeck每隔几秒便请求一次数据有没有更新,如何请求呢,它不是每次都请求所有数据,看链接变化:

https://api.twitter.com/1.1/statuses/home_timeline.json?count=40&include_my_retweet=1&since_id=12***************&cards_platform=Web-13&include_entities=1&include_user_entities=1&include_cards=1&send_error_codes=1&tweet_mode=extended&include_ext_alt_text=true&include_reply_count=true

get请求

参数为:

count: 40
include_my_retweet: 1
since_id: 12------------
cards_platform: Web-13
include_entities: 1
include_user_entities: 1
include_cards: 1
send_error_codes: 1
tweet_mode: extended
include_ext_alt_text: true
include_reply_count: true

清晰地看到多了一个since_id即上一个请求拿到的数据中最新的那个id

1.3下滑滚动的数据请求链接:

由于页面的数据是动态加载的,边往下滚动边加载,发现请求了这个数据,看看如何实现的,上链接:

https://api.twitter.com/1.1/statuses/home_timeline.json?count=40&include_my_retweet=1&max_id=12************&cards_platform=Web-13&include_entities=1&include_user_entities=1&include_cards=1&send_error_codes=1&tweet_mode=extended&include_ext_alt_text=true&include_reply_count=true

get请求

参数:

count: 40
include_my_retweet: 1
max_id: 12**********    
cards_platform: Web-13
include_entities: 1
include_user_entities: 1
include_cards: 1
send_error_codes: 1
tweet_mode: extended
include_ext_alt_text: true
include_reply_count: true

多了个max_id, 其实熟悉twitter api的都知道,这个是上次获取到的所有的id时间最早的那个id-1

2、搜索数据的获取

搜索一下“qazxsw",找一下数据链接

https://api.twitter.com/1.1/search/universal.json?q=qazxsw&count=40&modules=status&result_type=recent&pc=false&ui_lang=zh-CN&cards_platform=Web-13&include_entities=1&include_user_entities=1&include_cards=1&send_error_codes=1&tweet_mode=extended&include_ext_alt_text

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

蓝之赟

谢谢鼓励

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值