15.1 屏幕抓取
#简单的屏幕抓起程序
from urllib.request import urlopen
import re
p = re.compile('<a href="(.*?)">(.*?)</a>')
text = urlopen('http://www.baidu.com').read().decode()
for url,name in p.findall(text):
print('{}({})'.format(name,url))
1)基于正则表达式的方法
2)使用Tidy库和XHTML解析
3)专为屏幕抓取设计的Beautiful Soup库
15.1.1 Tidy和XHTML解析
1 Tidy是什么
Tidy用于对格式不正确且不严谨的HTML进行修复的工具。
2 获取Tidy
3 为何使用XHTML
XHTML非常严格
4 使用HTMLParser
15.1.2 Beautiful Soup
15.2 使用CGI创建动态网页
15.3 使用web框架
Flask
其他web应用框架:
Django https://djangoproject.com
TurboGears http://turbogears.org
web2py http://web2py.com
Grok https://pypi.python.org/pypi/grok
Zope2 https://pypi.python.org/pypi/Zope2
Pyramid https://trypyramid.com/
15.4 Web服务:更高级的抓取
15.4.1 RSS和相关内容
15.4.2 使用XML-RPC进行远程过程调用
15.4.3 SOAP
15.5 小结