inst爬虫代码

原始git链接

INS爬虫

最近有很多朋友发邮件和私信询问ins爬虫的问题,我重新去看了一下,然后把新版更新了一下。

还有由于tls指纹,我讲请求的第三方库调整为tls_client模拟浏览器调用。

出现问题的主要原因是请求头的参数提取有问题,新版的请求头已经不是原来的那个样子了,这样会导致请求的返回是

{'message': 'useragent mismatch', 'status': 'fail'}

我们修改请求头后就可以得到准确的返回结果

{
    "biography": "",
    "username": "renebaebae",
    "fbid": "17841419632210822",
    "full_name": "IRENE",
    "id": "19446582407",
    "followed_by": 11689096,
    "follow": 4,
    "avatar": "https://scontent-nrt1-1.cdninstagram.com/v/t51.2885-19/69067759_957976681207922_446652332218777600_n.jpg?stp=dst-jpg_s320x320&_nc_ht=scontent-nrt1-1.cdninstagram.com&_nc_cat=1&_nc_ohc=lqyt1uLD7bkQ7kNvgElH_Vc&_nc_gid=da9e9a13bbbb40afb7ca800ef16e8ded&edm=AOQ1c0wBAAAA&ccb=7-5&oh=00_AYDS_6vHqjNGgGPP1uGP2VCpuzkcf-UR4zaatJ_IPdTFJg&oe=66F7168F&_nc_sid=8b3546",
    "noteCount": 165,
    "is_private": false,
    "is_verified": true
}

cookie的样例

还有部分朋友不知道cookie的格式,这里我也把cookie的格式贴下:

{
    "wd": "",
    "dpr": "",
    "mid": "",
    "datr": "",
    "ig_did": "",
    "ig_nrcb": "",
    "ps_l": "1",
    "ps_n": "1",
    "csrftoken": "",
    "ds_user_id": "",
    "sessionid": "",
    "shbid": "",
    "shbts": "",
    "rur": ""
    }

大概需要这些内容,简单的方法是把页面的cookie字符串贴下,然后找一个在线转化的转为python的字典即可。

代理

还有一部分朋友询问代理如何添加,这里我也将代理抽离到全局进行添加了

proxy = {
    "http": "http://127.0.0.1:17890",
    "https": "http://127.0.0.1:17890",
}

按照python的格式修改即可

原始代码

完整代码可见github或者我的博客
https://www.xsblog.site/post/14
https://github.com/xishandong/crawlProject/blob/main/%E8%BF%9B%E9%98%B6%E7%AF%87/%E5%9F%BA%E7%A1%80%E7%BB%BC%E5%90%88/Instagram/downloader.py

是否需要添加cookie

类型是否需要cookie
user_info
post
comment
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

dxxmsl

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值