python爬虫模拟用户点击_Python爬虫笔记【一】模拟用户访问之表单处理(3)

学习的课本为《python网络数据采集》,大部分代码来此此书。

大多数网页表单都是由一些HTML 字段、一个提交按钮、一个在表单处理完之后跳转的“执行结果”(表单属性action 的值)页面构成。虽然这些HTML 字段通常由文字内容构成,但是也可以实现文件上传或其他非文字内容。这些都为抓取数据的阻碍所以放在了前面。废话不多说开搞。

1.HTTP基本接入认证

在发明cookie 之前,处理网站登录最常用的方法就是用HTTP 基本接入认证(HTTP basicaccess authentication)

1803561-20190914155149274-758809429.png

importrequestsfrom requests.auth importAuthBasefrom requests.auth importHTTPBasicAuth

auth= HTTPBasicAuth('ryan', 'password')

r= requests.post(url="http://pythonscraping.com/pages/auth/login.php", auth=auth)print(r.text)

虽然这看着像是一个普通的POST 请求,但是有一个HTTPBasicAuth 对象作为auth 参数传递到请求中。显示的结果将是用户名和密码验证成功的页面(如果验证失败,就是一个拒绝接入页面)。

2.一般表单处理

表单源码:

First name:
Last name:

注意一下:首先,两个输入字段的名称是firstname 和lastname,这一点非常重要。字段的名称决定了表单被确认后要被传送到服务器上的变量名称。如果你想模拟表单提交数据的行为,你就需要保证你的变量名称与字段名称是一一对应的。其次注意表单的真实行为其实发生在processing.php(绝对路径是http://pythonscraping.com/files/processing.php)。表单的任何POST 请求其实都发生在这个页面上,并非表单本身所在的页面。

python语句:

importrequests

# 将提交的信息设置成字典

params= {'firstname': 'Ryan', 'lastname': 'Mitchell'}

# 找到post请求,data填入你要提交的字典

r= requests.post("http://pythonscraping.com/files/processing.php", data=params)print(r.text)

3.看个代码稍微多点的

并不需要看懂每个代码的意思,只要知道你需要那些信息就可以(这句写在前面)

html:

"value="submit">Join

虽然第一次看这些会觉得恐怖,但是大多数情况下你只需要关注两件事:

• 你想提交数据的字段名称(在这个例子中是email_addr)

• 表单的action 属性,也就是表单提交后网站会显示的页面(在这个例子中是http://post.oreilly.com/client/o/oreilly/forms/quicksignup.cgi)把对应的信息增加到请求信息中,运行代码即可:

importrequests

params= {'email_addr': 'ryan.e.mitchell@gmail.com'}

r= requests.post("http://post.oreilly.com/client/o/oreilly/forms/quicksignup.cgi", data=params)

print(r.text)

4.提交文件和图像

html:

Upload a file!

Submit a jpg, png, or gif:

python:

importrequests

files= {'uploadFile': open('../files/Python-logo.png', 'rb')}

r= requests.post("http://pythonscraping.com/pages/processing2.php",

files=files)print(r.text)

用selenium来处理表单

这里需要设置webdriver

from selenium importwebdriverfrom selenium.common.exceptions importTimeoutExceptionfrom selenium.webdriver.support.ui importWebDriverWaitfrom selenium.webdriver.support importexpected_conditions as ECfrom selenium.webdriver.common.keys importKeysimporttimefrom urllib.request importurlretrieve

driver=webdriver.Firefox()  # 打开一个浏览器

# 下面是设置代理忽略掉就可以#profile = webdriver.FirefoxProfile()#profile.set_preference('network.proxy.type', 1)#profile.set_preference('network.proxy.http', '127.0.0.1')#profile.set_preference('network.proxy.http_port', 8080)#profile.update_preferences()#driver = webdriver.Firefox(firefox_profile=profile)

# 打开网址

driver.get("http://60.216.103.149/jwweb/sys/ValidateCode.aspx")

# 查看你需要输入的表单是否在frame中,如果在,你可能搜不到输入框的id,所以你需要跳转一下,如果没有下面一行代码可以忽略

driver.switch_to_frame('frm_login')

# 输入账号xxxx

driver.find_element_by_id("txt_admin").send_keys("xxxx")

# 键盘事件table键 跳转到密码输入框

driver.find_element_by_id("txt_admin").send_keys(Keys.TAB)

driver.find_element_by_id("txt_power").send_keys("xxxx")

# 找到登入按钮的id,设置点击事件提交表单

driver.find_element_by_id("btn_login").click()

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python爬虫可以模拟用户登录,以获取需要登录后才能访问的页面信息。模拟登录的步骤可以总结为以下几个步骤: 1. 找到登录请求:首先,需要到登录页面的请求链接,可以通过查看网页源代码或使用开发者工具来获取该信息。 2. 分析表单:在登录页面中,通常会有一个表单用于输入用户名和密码。需要分析该表单的结构,包括表单的URL、请求方式(POST或GET)、表单字段的名称等。 3. 提取加密信息:有些网站会对登录信息进行加密,例如使用RSA或MD5等算法。如果加密信息可被破解,可以提取加密信息并进行解密。如果无法破解,可能需要放弃模拟登录。 4. 构造表单访问:使用Python的网络请求库(如requests)发送一个带有正确登录信息的表单请求。在请求中,需要将用户名和密码以及其他必要的登录信息作为表单数据发送给服务器。 通过以上步骤,可以实现Python爬虫模拟用户登录。具体实现的代码和方法可以参考相关的教程和文档,如参考链接所示的CSDN博客文章[2]。请注意,在进行爬虫时,应遵守相关网站的服务条款和法律法规,确保合法合规地进行数据获取。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [python爬虫——模拟登陆](https://blog.csdn.net/qq_16121469/article/details/127718925)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [python爬虫基础(7:模拟登录)](https://blog.csdn.net/Jeeson_Z/article/details/81457337)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值