python网络数据采集-单选按钮、复选框和其他输入

本文探讨了HTML中的各种表单字段,如单选按钮、复选框和下拉选框,以及HTML5中的新控件。强调了在网络数据采集时,关注表单字段的name属性和可能由JavaScript生成的复杂值。介绍了如何使用工具,如Chrome的开发者工具,来跟踪和解析复杂的POST表单请求参数。
摘要由CSDN通过智能技术生成

       显然,并非所有的网页表单都只是一堆文字字段和一个提交按钮。HTML标准里提供了大量可用的表单字段:单选按钮、复选框和下拉选框等。在HTML5里面,还有其他控件,向滚动条(范围输入字段),邮箱、日期等。自定义的JavaScript字段可谓无所不能,可以实现取色器(Colorpicker)、日历以及开发者能想到的任何功能。

       无论表单的字段看起来多么复杂,仍然有两件事是需要关注的:字段名称和值。字段名称可以通过查看源代码寻找name属性轻易获得。而字段的值有时会比较复杂,有可能在表单提交之前通过JavaScript生成的。取色器就是一个比较奇怪的表单字段,它可能会用类似#F03030这样的值。

       如果你不确定一个输入字段值的数据格式,有一些工具可以跟踪浏览器正在通过网站发出或接受的GET或POST请求的内容。之前提到过,跟踪GET请求效果最好也是最直接的手段就是查看网站的URL。如果URL的链接如下所示:

http://domainname.com?thing1=foo&thing2=bar
你就明白了请求就是下面这种表单:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值