python instagram 爬虫

最新推荐文章于 2024-08-19 10:27:35 发布

搬砖的苦行僧

最新推荐文章于 2024-08-19 10:27:35 发布

阅读量2.2k

点赞数

分类专栏： Python爬虫文章标签： python Python零基础反爬

本文链接：https://blog.csdn.net/WhyLW/article/details/107771564

版权

本文介绍了如何使用Python爬取Instagram数据，包括注意事项、请求头设置、分页请求和cookie使用。重点讨论了Instagram取消X-Instagram-GIS验证后的爬虫策略，以及处理分页和视频图片帖子的方法。同时提醒了爬取速度过快可能导致的SSL错误，并建议使用代理解决。

摘要由CSDN通过智能技术生成

直接介绍一下具体的步骤以及注意点：

instagram 爬虫注意点

instagram 的首页数据是服务端渲染的，所以首页出现的 11 或 12 条数据是以 html 中的一个 json 结构存在的（additionalData）, 之后的帖子加载才是走 ajax 请求的在

2019/06 之前，ins 是有反爬机制的，请求时需要在请求头加了 ‘X-Instagram-GIS’ 字段。其算法是：

1、将 rhx_gis 和 queryVariables 进行组合

rhx_gis 可以在首页处的 sharedData 这个 json 结构中获得

2、然后进行 md5 哈希
e.g.

    queryVariables = '{"id":"' + user_id + '","first":12,"after":"' +cursor+ '"}'
    print(queryVariables)
    headers['X-Instagram-GIS'] = hashStr(GIS_rhx_gis + ":" + queryVariables)

但是在在 2019/06 之后， instagram 已经取消了 X-Instagram-GIS 的校验，所以无需再生成 X-Instagram-GIS，上一点内容可以当做历史来了解了。

初始访问 ins 首页的时候会设置一些 cookie，设置的内容 (response header) 如下：

  set-cookie: rur=PRN; Domain=.instagram.com; HttpOnly; Path=/; Secure
    set-cookie: ds_user_id=11859524403; Domain=.instagram.com; expires=Mon, 15-Jul-2019 09:22:48 GMT; Max-Age=7776000; Path=/; Secure
    set-cookie: urlgen="{\"45.63.123.251\": 20473}:1hGKIi:7bh3mEau4gMVhrzWRTvtjs9hJ2Q"; Domain=.instagram.com; HttpOnly; Path=/; Secure
    set-cookie: csrftoken=Or4nQ1T3xidf6CYyTE7vueF46B73JmAd; Domain=.instagram.com; expires=Tue, 14-Apr-2020 09:22:48 GMT; Max-Age=31449600; Path=/; Secure

关于 query_hash，一般这个哈希值不用怎么管，可以直接写死

特别注意：在每次请求时务必带上自定义的 header，且 header 里面要有 user-agent，这样子才能使用 rhx_gis 来进行签名访问并且获取到数据。切记！是每次访问！例如：

headers = {
   
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}

大部分 api 的访问需要在请求头的 cookie 中携带 session-id 才能得到数据，一个正常的请求头 (request header) 如下:

   :authority: www.instagram.com
    :method: GET
    :path: /graphql/query/?query_hash=ae21d996d1918b725a934c0ed7f59a74&variables=%7B%22fetch_media_count%22%3A0%2C%22fetch_suggested_count%22%3A30%2C%22ignore_cache%22%3Atrue%2C%22filter_followed_friends%22%3Atrue%2C%22seen_ids%22%3A%5B%5D%2C%22include_reel%22%3Atrue%7D
    :scheme: https
    accept: */*
    accept-encoding: gzip, deflate, br
    accept-language: zh-CN,zh;q=0.9,en;q=0.8,la;q=0.7
    cache-control: no-cache
    cookie: mid=XI-joQAEAAHpP4H2WkiI0kcY3sxg; csrftoken=Or4nQ1T3xidf6CYyTE7vueF46B73JmAd; ds_user_id=11859524403; sessionid=