查询词和非阴影部分的剩余的7个位置有关,如果暴力破解的发,总共(26+10)^7=78364164096~780亿个url有很多没用的。写了个爬虫爬,感觉太慢了,暂时放弃了这种想法,想用模拟浏览器的方式,根据查询词的存储查询结果。在网上找了很多资料,终于搞定。
使用的是mechanize模块,它是非常适合的模拟浏览器模块。可以利用该模块完成一些浏览器想要做的事,比如自动填写表单。主要特点:
http,https协议等
简单的HTML表单填写
浏览器历史记录和重载
Referer的HTTP头的正确添加(可选)
自动遵守robots.txt的
自动处理HTTP-EQUIV和刷新
下面以解决该问题为导向,记录下完成步骤
0. 预备
环境:linux python 2.7
安装模块:mechanize cookielib BeautifulSoup
1. 初始化并建立一个浏览器对象
复制代码
import re
import sys
import mechanize
import cookielib
from bs4 import BeautifulSoup
br = mechanize.Browser() ##建立浏览器对象
cj = cookielib.LWPCookieJar() ##通过导入cookielib模块,并设置浏览器cookie,可以在需要认证的网络行为之后不用重复认证登陆
br.set_cookiejar(cj) ##关联cookies