网站地址:http://ec.mcc.com.cn/b2b/web/two/indexinfoAction.do?actionType=showMoreCgxx&xxposition=cgxx
本来以为这是个老老实实的get请求,谁知道在翻页的时候发现提交请求的方式是post,
好在首页用get方式可以轻松获取到html源码,没有像之前的东方电气那么烦人。
在这里采用了简单的post提交方式,因此观察翻页即可发现,页面的改变和FormData有关
通过更改formdata中的currpage即可实现翻页提交。
使用post方式时,数据放在data或者body中,不能放在url中,放在url中将被忽略。
urllib2用一个Request对象来映射所提出的HTTP请求。
通过请求的地址创建一个Request对象,
通过调用urlopen并传入Request对象,将返回一个相关请求response对象,
这个应答对象如同一个文件对象,所以要在Response中调用.read()
def get_one_page(url,data):
try:
headers = {
'User-Agent': 'Mozilla/5.0 (