【python】python获取网站源码失败，出现一堆script脚本内容

沉默小管

已于 2022-07-05 17:21:31 修改

阅读量1.7k

点赞数 4

分类专栏： python 文章标签： python 爬虫 chrome

于 2022-02-13 16:57:09 首次发布

本文链接：https://blog.csdn.net/qq_36977923/article/details/122910925

版权

python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

问题原因

网站开启了防爬虫，爬取的设置，通过头部的cookie和User-Agent判断
在这里插入图片描述

解决流程

在这里插入图片描述
在头部设置以下内容

def ask_url(url,method):
    proxies = {
        "http": None,
        "https": None,
    }
    header = {
        "Cache-Control":"no-cache",
        "Cookie":"xxx",//通过浏览器控制台获取
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.17 Safari/537.36 Edg/99.0.1150.11'//通过浏览器控制台获取
    }
    requests.packages.urllib3.disable_warnings()
    if(method == 'get'):
        page_text = requests.get(url,headers=header,verify=False,proxies=proxies).content
    else:
        page_text = requests.post(url,headers=header,verify=False,proxies=proxies).content
    # 编码格式转换，防止中文乱码
    page_text.decode("utf-8","ignore")
    #实例化beautifulSoup对象，需要将页面源码数据加载到该对象中
    soup = BeautifulSoup(page_text,'html.parser')
    # print(soup)
    return soup

在这里插入图片描述

✨ $\textcolor{gray}{踩坑不易，还希望各位大佬支持一下}$

📃 $\textcolor{green}{个人主页：}$ 沉默小管

📃 $\textcolor{green}{个人网站：}$ 沉默小管

🔥 $\textcolor{green}{技术交流QQ群：837051545}$

👍 $\textcolor{green}{点赞，你的认可是我创作的动力！}$

⭐️ $\textcolor{green}{收藏，你的青睐是我努力的方向！}$

✏️ $\textcolor{green}{评论，你的意见是我进步的财富！}$

如果有不懂可以留言，我看到了应该会回复
如有错误，请多多指教