关于巨量星图数据采集研究

在这里插入图片描述
准备采集星图达人信息这块数据,抓个包看看
在这里插入图片描述
比较方便的直接抓到包
然后写成python脚本

import requests

cookies = {
}

headers = {
    'Host': 'www.xingtu.cn',
    'sec-ch-ua': '"Chromium";v="118", "Microsoft Edge";v="118", "Not=A?Brand";v="99"',
    'sec-ch-ua-mobile': '?0',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36 Edg/118.0.2088.76',
    'Accept': 'application/json, text/plain, */*',
    'x-login-source': '1',
    'Agw-Js-Conv': 'str',
    'X-CSRFToken': 'W3HXlV9Agod6vTBUi0ojwG0FaC8jmhQh',
    'sec-ch-ua-platform': '"Windows"',
    'Sec-Fetch-Site': 'same-origin',
    'Sec-Fetch-Mode': 'cors',
    'Sec-Fetch-Dest': 'empty',
    'Referer': 'https://www.xingtu.cn/ad/creator/author/douyin/7234394998563684413/1?search_session_id=7297066212915052581&video_type=2&_route_from=from_page%3DMarket%26search_session_id%3D7297066212915052581%26is_for_order%3D1%26platform_source%3D1%26order_by%3Dscore%26sort_type%3D2%26search_scene%3D1%26display_scene%3D1%26limit%3D20%26page%3D1%26regular_filter%3D%255Bobject%2BObject%255D%26rel_attribute_filter%3D%255Bobject%2BObject%255D%26task_category%3D1%26package_id%3D%26is_filter%3D1%26current_tab%3D1%26displayScene%3Dmarket%26is_limit_time_price%3D0&btm_ppre=a0.b0.c0.d0&btm_pre=a4738.b16016.c26503.d3332&btm_show_id=f937aa1a-407d-46af-a87d-a776068b0e9b&btm_pre_unit_params=%257B%2522platform_source%2522%253A1%252C%2522order_by%2522%253A%2522score%2522%252C%2522sort_type%2522%253A2%252C%2522search_scene%2522%253A1%252C%2522display_scene%2522%253A1%252C%2522limit%2522%253A20%252C%2522page%2522%253A1%252C%2522regular_filter%2522%253A%257B%2522current_tab%2522%253A1%252C%2522marketing_target%2522%253A1%252C%2522task_category%2522%253A1%257D%252C%2522rel_attribute_filter%2522%253A%257B%2522price_by_video_type__ge%2522%253A%257B%2522field_value%2522%253A%25220%2522%252C%2522rel_id%2522%253A%25222%2522%257D%257D%252C%2522task_category%2522%253A%25221%2522%252C%2522package_id%2522%253A%2522%2522%252C%2522is_filter%2522%253A%25221%2522%252C%2522current_tab%2522%253A1%252C%2522displayScene%2522%253A%2522market%2522%257D',
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
}

params = {
    'platform_source': '1',
    'platform_channel': '1',
    'o_author_id': '7234394998563684413',
}

response = requests.get('https://www.xingtu.cn/gw/api/author/get_author_platform_channel_info_v2', params=params, cookies=cookies, headers=headers)

这样就很好的拿到数据了
相对来说比较简单

但是星图大量采集需要过很多风控,我这边已经解决大量采集风控的问题,下一期再写一篇过风控的方法

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
您好!关于使用Selenium来爬取巨量星图,您可以按照以下步骤进行操作: 1. 安装Selenium:使用pip安装Selenium库,可以在命令行中执行以下命令: ``` pip install selenium ``` 2. 下载浏览器驱动:Selenium需要与特定的浏览器驱动程序配合使用,您可以根据自己使用的浏览器下载对应的驱动程序。常用的浏览器驱动有ChromeDriver和GeckoDriver(用于Firefox),您可以选择适合您的浏览器的驱动版本。 3. 配置驱动路径:将下载好的驱动程序所在路径添加到系统环境变量中,或者在代码中指定驱动程序的路径。例如,如果您使用的是Chrome浏览器和ChromeDriver,可以在代码中设置如下: ```python from selenium import webdriver driver = webdriver.Chrome('/path/to/chromedriver') ``` 4. 使用Selenium进行页面操作:根据巨量星图的网站结构和需求,通过Selenium模拟浏览器的操作,获取页面数据。一般来说,您可以使用`find_element_by_XXX`系列方法来定位网页元素,并使用`get_attribute`或`text`等方法获取元素的属性或文本内容。 5. 处理页面数据:根据您的需求,将获取到的页面数据进行处理和保存。您可以将数据保存到文件,或者存入数据库等。 请注意,使用Selenium进行爬取时,需要遵守网站的爬虫规则,并尊重网站的隐私政策。同时,为了避免给网站服务器带来过大的负担,建议设置合理的访问频率和延时。 希望以上信息对您有所帮助!如果您有任何其他问题,请随时提出。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值