python网页查询然后返回结果_[python爬虫]根据查询词爬取网站返回结果

查询词和非阴影部分的剩余的7个位置有关,如果暴力破解的发,总共(26+10)^7=78364164096~780亿个url有很多没用的。写了个爬虫爬,感觉太慢了,暂时放弃了这种想法,想用模拟浏览器的方式,根据查询词的存储查询结果。在网上找了很多资料,终于搞定。

使用的是mechanize模块,它是非常适合的模拟浏览器模块。可以利用该模块完成一些浏览器想要做的事,比如自动填写表单。主要特点:

http,https协议等

简单的HTML表单填写

浏览器历史记录和重载

Referer的HTTP头的正确添加(可选)

自动遵守robots.txt的

自动处理HTTP-EQUIV和刷新

下面以解决该问题为导向,记录下完成步骤

0. 预备

环境:linux  python 2.7

安装模块:mechanize cookielib BeautifulSoup

1. 初始化并建立一个浏览器对象

复制代码

import re

import sys

import mechanize

import cookielib

from  bs4 import BeautifulSoup

br = mechanize.Browser()        ##建立浏览器对象

cj = cookielib.LWPCookieJar()   ##通过导入cookielib模块,并设置浏览器cookie,可以在需要认证的网络行为之后不用重复认证登陆

br.set_cookiejar(cj)        ##关联cookies

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值