使用request.get获取网页代码不全，解决办法

sty3318

于 2024-03-01 10:54:10 发布

阅读量2.9k

点赞数 10

分类专栏： python问题解决文章标签： python

本文链接：https://blog.csdn.net/sty3318/article/details/136389679

版权

python问题解决专栏收录该内容

4 篇文章

订阅专栏

文章讲述了如何在Python中使用requests库处理网页内容截断、登录需求等问题，包括设置timeout、流数据处理、会话对象的使用、登录认证、状态码检查和错误处理等技巧，以实现对受保护页面的访问。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.不能获得全部代码的原因

网页内容被截断：有时候，网页内容可能会被截断，导致无法获取完整内容。这种情况下，可以尝试增加 timeout 参数来延长请求超时时间，或者考虑使用其他方式获取网页内容。
网页内容较大：如果网页内容较大，可能会被分段传输，导致部分内容未完整获取。可以尝试使用 stream=True 参数来获取内容的流数据，然后逐步读取数据直至完整获取。
网页内容需要登录或授权：有些网页需要登录或授权才能获取完整内容。在这种情况下，需要先进行登录或者添加相应的授权信息（如 cookies、headers）来获取完整内容。
服务器限制：有些服务器可能会限制单次请求返回的数据量，导致无法获取完整内容。可以尝试分批次请求或者考虑其他获取方式。

2.解决办法与request.get的区别

使用会话对象：在代码中创建了一个 requests.session() 对象 session，并使用该会话对象来发送登录请求和后续的 GET 请求。会话对象可以在多个请求之间保持 cookie 和其他会话数据，模拟浏览器的会话状态。
登录认证：通过在会话对象上发送 POST 请求来模拟登录操作，将用户名和密码作为表单数据传递给登录页面。这样可以在会话中保持登录状态，从而访问受保护的页面。
状态码检查：在登录请求和后续 GET 请求之后，检查每个响应的状态码。如果登录失败或者无法获取内容，会通过打印相应的状态码进行提示。
禁用 SSL 证书验证：在发送登录请求时，设置 verify=False 参数来忽略 SSL 证书验证，这可能会带来安全风险。建议在生产环境中谨慎使用。
错误处理：根据不同的响应状态码，输出相应的信息以进行错误处理和调试。

总的来说，这段代码通过创建会话对象、模拟登录认证、保持会话状态等方式，实现了对登录页面和受保护页面的访问。相比于简单的 requests.get，这段代码更加灵活和功能强大，适用于需要模拟用户登录等复杂场景。

3.修改后代码：

import requests

login_url = 'https://sssssss'  # 替换为登录页面的 URL
target_url = 'https://cccccccccc'  # 替换为需要访问的受保护页面的 URL

session = requests.session()

# 发送登录请求
login_data = {
    'username': 'aaa',
    'password': 'aaa'
}
response = session.post(login_url, data=login_data, verify=False)

# 检查登录是否成功
if response.status_code == 200:
    # 使用会话对象进行后续请求
    response = session.get(target_url)
    if response.status_code == 200:
        print(response.text)
    else:
        print('Failed to get content. Status code:', response.status_code)
else:
    print('Login failed. Status code:', response.status_code)