python表单交互

最新推荐文章于 2024-09-24 10:07:06 发布

快乐江小鱼

最新推荐文章于 2024-09-24 10:07:06 发布

阅读量309

点赞数

分类专栏： # python web 文章标签： python 服务器前端

本文链接：https://blog.csdn.net/dolly_baby/article/details/126611617

版权

python web 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

python表单交互

下载的静态网页总是返回相同的内容，而与网页交互，根据用户输入返回对应的内容。HTML定义了两种向服务器提交数据的方法，分别是GET和POST。使用GET方法时候，会将类似于查询字符串格式?name1=val1&name2=val2的数据添加到URL中，由于浏览器存在URL长度限制，这种方法只适用于少量数据的场景，此外这种方法应当用于从服务器端获取数据，而不是修改数据。使用POST请求方法时候，数据在请求体中发送，与URL保持分离。敏感数据只应该使用POST请求进行发送，以避免将数据暴露在URL中。表单使用POST方法时，表单数据提交到服务器端有两种编码类型使用，默认是使用application/x-www-form-urlencoded此时所有非字母数字类型的字符都需要转换为十六进制的ASCII值，如果表单中包含大量非字母数字类型的字符时，这种编码类型效率就会非常低；文件上传时使用multipart/form-data作为编码类型，不会对数据进行编码，屙屎使用MIME协议将其作为多个部分进行发送。

想要和表单进行交互，就需要拥有登录网站的用户账号。在能够处理验证问题后，可以实现自动化表单注册。cookie是网站在HTTP响应头中传输的少量数据，例如Set-Cookie: session_id=xxx，浏览器会存储这些数据，并在后续对该网站的请求头中包含它们。

# 提取表单中所有input标签的详情
import lxml.html as lh
import cookielib, urllib, pprint
def parse_form(html):
    tree = lh.fromstring(html)
    data = {}
    for e in tree.cssselect('form input'):
        if e.get('name'):
            data[e.get('name')] = e.get('value')
    return data

REGISTER_URL = 'http://xxx/register'
cj = cookielib.CookieJar()
opener = urllib.request.build_opener(urllib.HTTPCookieProcessor(cj))
html = opener.open(REGISTER_URL).read()
form = parse_form(html)
pprint.pprint(form)

如何向服务器提交它所需要的登录信息，有时候会很复杂，可以现在浏览器中手工执行登录，然后在Python脚本中复用之前得到的cookie，从而实现自动登录。使用pip install mechanize安装Mechanize模块，提供了与表单交互的高级接口。

验证码（CAPTCHA）用于测试用户是否为真实人类。首先使用光学字符识别（OCR），然后使用一个验证码处理API。为了在python中处理图像，可以安装pip install pillow包，pillow提供了一个便捷的Image类，其中包含了很多用于处理验证码图像的高级方法。

from io import BytesIO
import lxml.html
from PIL import Image

def get_captcha(html):
    # 从表单中获取图像数据
    tree = lxml.html.fromstring(html)
    img_data = tree.cssselect('div#recaptcha img')[0].get('src')
    img_data = img_data.partition(',')[-1]
    bin_img_data = img_data.decode('base64')
    file_like = BytesIO(bin_img_data)
    img = Image.open(file_like)
    return img