准备工作:
华科查电费的网址:”http://202.114.18.218/main.aspx”
用(谷歌)浏览器访问网址,右键打开’检查’,审查该网址的元素,查看检查框中的NetWork选项。通过尝试人工进行电费查询,来查找Request请求的url和请求时所带的数据,如下列图:
从上面图来看,我们知道请求时所带的数据除了我们所选择的楼层信息外,还有其他两个奇怪的信息:
__EVENTVALIDATION 和 __VIEWSTATE
。这给我们的爬虫带来一定的麻烦。学会使用python的urllib.request库和BeautifulSoup库
代码部分 :
import urllib.request
from bs4 import BeautifulSoup
import urllib.error
#环境:phthon3.5.1
#请求的链接
url = "http://202.114.18.218/main.aspx"
#请求的头信息
head = {}
head['User-Agent'] = 'Mozilla/5.0 (Window