近期有经常使用的数据,需要登陆到某个网站,将其中的表格数据读取出来,为了提高效率节省工作时间,决定写一个程序,使用Python自动登陆到该网站然后将某日(参数)的数据读取并存放于excel表格中。
1登陆网站
通过IE等浏览器登陆到一个网站比较简单,输入账号、密码,点击确定就登陆到了一个网站,但是如果想实现自动化,就必须得通过http协议与服务器进行通
信。常见的http协议工具有curl,由于curl使用比较麻烦,得自已处理像cookie之类的细节,这里就直接使用Python的urllib库。
首先使用wireShark抓包工具,分析登陆过程中传输的数据,登陆网站时是将用户名和密码(通常为MD5加密的密码)post到一个目标页面进
行处理,如果用户名和密码正确,就会redirect到成功页面。登陆成功后,返回的header中包括一个cookie,必须对该cookie正确处
理,才能正常访问登陆成功后的网站内容。
import urllib
import urllib2
import cookielib
from bs4 import BeautifulSoup
#登陆时检验账户的页面
auth_url = "http://localhost/check.php’
#所需数据的页面
data_url = " http://localhost/data.php’
#用户名和密码
para={“name”:”user”,”password”:123}
#对参数进行编码(常用于汉字)
post_dat