模拟浏览器进行爬取时遇到的一些问题记录

最近实验室要求在爬取一些论文数据,过程中遇到了不少问题,在此记录一下。

未解决的问题

https://chemistry-europe.onlinelibrary.wiley.com/doi/full/10.1002/cctc.202101625
这个网页,当我用requests去获得它的论文数据时,无论怎么设置headers和cookie,还是显示503错误,不知道是什么反爬的措施。在此把代码贴出来,期待能收获大佬的解答。

import requests
from hyper.contrib import HTTP20Adapter
url = 'https://chemistry-europe.onlinelibrary.wiley.com/doi/full/10.1002/cctc.202101625'
session = requests.session()
session.mount(url, HTTP20Adapter())
headers = {
   
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
        'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36',
        'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
        'Accept-Encoding': 'gzip, deflate, br',
        'Accept-Language': 'zh-CN,zh;q=0.9',
        'sec-ch-ua': '" Not A;Brand";v="99", "Chromium";v="100", "Google Chrome";v="100"',
        'sec-ch-ua-platform': '"macOS"',
        ':authority': 'chemistry-europe.onlinelibrary.wiley.com',
        ':method': 'GET',
        ':path': '/doi/full/10.1002/cctc.202101625',
        ':scheme': 'https',
        'cache-control': 'max-age=0',
        'sec-ch-ua-mobile': '?0',
        'sec-fetch-dest': 'document',
        'sec-fetch-mode': 'navigate'
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
当使用Python爬取京东手机商品,可以采用以下总体设计: 1. 确定目标:明确要爬取的京东手机商品的相关信息,例如商品名称、价格、评价等。 2. 导入必要的库:在Python脚本中导入所需的库,如requests用于发送HTTP请求,BeautifulSoup用于解析网页内容,pandas用于数据处理,等等。 3. 发送请求获取网页内容:使用requests库发送HTTP请求,获取京东手机商品页面的HTML内容。 4. 解析网页内容:通过BeautifulSoup库解析网页内容,提取出所需的商品信息。 5. 数据处理和存储:将提取的商品信息进行数据处理和清洗,然后将其存储到适合的数据结构中,例如列表、字典或数据框。 6. 处理多页数据:如果需要爬取多页的商品信息,可以通过循环或递归的方式,自动爬取每一页的商品数据,并将其合并到同一个数据结构中。 7. 反爬虫处理:考虑到京东网站可能会有反爬虫机制,可以采取一些措施来应对,如设置延请求、模拟浏览器行为、使用代理IP等。 8. 数据可视化和分析(可选):使用pandas或其他可视化工具对爬取的数据进行分析和可视化,以获取更多洞察和见解。 9. 异常处理和错误日志:在爬取过程中,可能会遇到各种异常情况,如网络连接错误、网页解析错误等,需要适当处理这些异常,并记录错误日志以便排查和修复问题。 10. 定任务和持续更新(可选):如果需要定期更新爬取的数据,可以将爬虫脚本设置为定任务,以便自动执行并更新数据。 总之,以上是一个简单的总体设计,你可以根据具体需求和情况进行调整和扩展。记得在爬取数据要遵守网站的相关规定和法律法规。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值