爬虫用户登陆

案例网站:https://www.yaozh.com/

自行先注册一个账号登陆,从后台拿到cookie信息(需要先解析成字典)。用requests带着cookie请求页面:

import requests
from fake_useragent import UserAgent

ua =UserAgent(verify_ssl=False)
url = 'https://www.yaozh.com'

headers = {'User-Agent' : ua.chrome}
cookies = {
            "acw_tc" : "2f624a4915517019851723054e594f26ab0e94b2dac89e5553a58be6820866",
            "PHPSESSID" : "thn69c47mbv6mnh8b80su209d5",
            "_ga" : "GA1.2.64439649.1551701987",
            "_gid" : "GA1.2.1552323367.1551701987",
            "Hm_lvt_65968db3ac154c3089d7f9a4cbb98c94" : "1551701987",
            "MEIQIA_VISIT_ID" : "1HzPWocm0CUcs9riBBRYZKTslGD",
            "yaozh_logintime" : "1551702120",
            "yaozh_user" : "704072%09%E7%90%B4%E4%BC%BC%E7%9A%91%",
            "yaozh_userId" : "704072",
            "_gat" : "1",
            "yaozh_uidhas" : "1",
            "yaozh_mylogin" : "1551702126",
            "acw_tc" : "2f624a4915517019851723054e594f26ab0e94b2dac89e5553a58be6820866",
            "MEIQIA_VISIT_ID" : "1HzPWocm0CUcs9riBBRYZKTslGD",
            "Hm_lpvt_65968db3ac154c3089d7f9a4cbb98c94" : "1551702127",
        }
response = requests.get(url=url,headers=headers,cookies=cookies,verify=False)

print(response.text)

用户名密码登陆

用session来接收并保存cookie,然后用session请求该网站的其他页面,即为登陆后的用户访问:

import requests
from fake_useragent import UserAgent

ua =UserAgent(verify_ssl=False)
url = 'https://www.yaozh.com'
url_login = 'https://www.yaozh.com/login/'
headers = {'User-Agent' : ua.chrome}

formdata = {
    "username" : "琴似皑患者炉",
    "pwd" : "zcb167+-",
    "formhash" : "DBEB84DA5B",
    "backurl" : "%2F%2Fwww.yaozh.com%2F",
}

session = requests.session()

response = session.post(url=url_login,headers=headers,data=formdata,verify=False)

data = session.get(url=url,headers=headers).content.decode()
print(data)
Python爬虫可以模拟用户登录,以获取需要登录后才能访问的页面信息。模拟登录的步骤可以总结为以下几个步骤: 1. 找到登录请求:首先,需要到登录页面的请求链接,可以通过查看网页源代码或使用开发者工具来获取该信息。 2. 分析表单:在登录页面中,通常会有一个表单用于输入用户名和密码。需要分析该表单的结构,包括表单的URL、请求方式(POST或GET)、表单字段的名称等。 3. 提取加密信息:有些网站会对登录信息进行加密,例如使用RSA或MD5等算法。如果加密信息可被破解,可以提取加密信息并进行解密。如果无法破解,可能需要放弃模拟登录。 4. 构造表单访问:使用Python的网络请求库(如requests)发送一个带有正确登录信息的表单请求。在请求中,需要将用户名和密码以及其他必要的登录信息作为表单数据发送给服务器。 通过以上步骤,可以实现Python爬虫模拟用户登录。具体实现的代码和方法可以参考相关的教程和文档,如参考链接所示的CSDN博客文章[2]。请注意,在进行爬虫时,应遵守相关网站的服务条款和法律法规,确保合法合规地进行数据获取。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [python爬虫——模拟登陆](https://blog.csdn.net/qq_16121469/article/details/127718925)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [python爬虫基础(7:模拟登录)](https://blog.csdn.net/Jeeson_Z/article/details/81457337)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值