Python使用Mechanize模块编写爬虫的要点解析

最新推荐文章于 2024-04-14 09:31:03 发布

程序员浩然

最新推荐文章于 2024-04-14 09:31:03 发布

阅读量1.7k

点赞数

分类专栏： python爬虫教程文章标签：编程语言 python

本文链接：https://blog.csdn.net/haoxun09/article/details/104722807

版权

本文详细介绍了如何使用Python的Mechanize模块进行网页爬虫开发，包括初始化浏览器对象、模拟浏览器行为如谷歌和百度搜索、人人网登录、HTTP基本认证、Form认证、Cookie支持和代理设置。同时，文章讨论了在大规模爬取过程中遇到的内存过高问题及其解决方案，提示可以通过控制Browser对象的历史记录来优化内存使用。

摘要由CSDN通过智能技术生成

这篇文章主要介绍了Python使用Mechanize模块编写爬虫的要点解析,作者还讲解了Mechanize程序占用内存过高问题的相关解决方法,需要的朋友可以参考下
mechanize是对urllib2的部分功能的替换，能够更好的模拟浏览器行为，在web访问控制方面做得更全面。结合beautifulsoup和re模块，可以有效的解析web页面，我比较喜欢这种方法。
下面主要总结了使用mechanize模拟浏览器的行为和几个例子（谷歌搜索，百度搜索和人人网登录等）
1.初始化并建立一个浏览器对象
如果没有mechanize需要easy_install安装，以下代码建立浏览器对象并作了一些初始化设置，实际使用过程可以按需开关。其实只用默认的设置也可以完成基本任务。

#!/usr/bin/env python
import sys,mechanize
 
#Browser
br = mechanize.Browser()
 
#options
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)
 
#Follows refresh 0 but not hangs on refresh > 0
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)
 
#debugging?
br.set_debug_http(True)
br.set_debug_redirects(True)
br.set_debug_responses(True)
 
#User-Agent (this is cheating, ok?)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11

最低0.47元/天解锁文章

程序员浩然

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python使用Mechanize模块编写爬虫的要点解析

这篇文章主要介绍了Python使用Mechanize模块编写爬虫的要点解析,作者还讲解了Mechanize程序占用内存过高问题的相关解决方法,需要的朋友可以参考下mechanize是对urllib2的部分功能的替换，能够更好的模拟浏览器行为，在web访问控制方面做得更全面。结合beautifulsoup和re模块，可以有效的解析web页面，我比较喜欢这种方法。下面主要总结了使用mechaniz...
复制链接

扫一扫