Python专题教程抓取网站,模拟登陆,抓取动态网页
Python专题教程:抓取网
站,模拟登陆,抓取动态网页
版本:v1.0
Crifan Li
摘要
本文是针对Python的中级开发人员,介绍如何用Python语言去实现抓取网站,模拟登陆,抓取动态网页。其中主
要涉及到,网络处理方面的模块(urllib,urllib2等),以及HTML解析相关的模块(BeautifulSoup,json等)。
本文提供多种格式供:
在线阅读 HTML 1 HTMLs PDF 3 CHM 4 TXT 5 RTF 6 WEBHELP
2 7
下载(7zip压缩包) HTML 8 HTMLs PDF 10 CHM 11 TXT 12 RTF 13 WEBHELP
9 14
HTML版本的在线地址为:
/files/doc/docbook/python_topic_web_scrape/release/html/python_
topic_web_scrape.html
有任何意见,建议,提交bug等,都欢迎去讨论组发帖讨论:
/bbs/categories/python_topic_web_scrape/
修订历史
修订 1.0 2013-02-06 crl
1. 把之前教程的地址整理过来
1
/files/doc/docbook/python_topic_web_scrape/release/html/python_topic_web_scrape.html
2
/files/doc/docbook/python_topic_web_scrape/release/htmls/index.html
3
/files/doc/docbook/python_topic_web_scrape/release/pdf/python_topic_web_scrape.pdf
4
/files/doc/docbook/python_topic_web_scrape/release/chm/python_topic_web_scrape.chm
5
/files/doc/docbook/python_topic_web_scrape/release/txt/python_topic_web_scrape.txt
6
/files/doc/docbook/python_topic_web_scrape/release/rtf/python_topic_web_scrape.rtf
7
/files/doc/docbook/python_topic_web_scrape/release/webhelp/index.h