第15章 Python和Web

最新推荐文章于 2019-01-25 20:38:00 发布

兔子鱼兮

最新推荐文章于 2019-01-25 20:38:00 发布

阅读量186

点赞数

本文链接：https://blog.csdn.net/u010819416/article/details/82764742

版权

《Python基础教程》第3版专栏收录该内容

17 篇文章 0 订阅

订阅专栏

15.1 屏幕抓取

#简单的屏幕抓起程序
from urllib.request import urlopen
import re
p = re.compile('<a href="(.*?)">(.*?)</a>')
text = urlopen('http://www.baidu.com').read().decode()
for url,name in p.findall(text):
    print('{}({})'.format(name,url))

1）基于正则表达式的方法
2）使用Tidy库和XHTML解析
3）专为屏幕抓取设计的Beautiful Soup库

15.1.1 Tidy和XHTML解析

1 Tidy是什么
Tidy用于对格式不正确且不严谨的ＨＴＭＬ进行修复的工具。

2 获取Tidy

3 为何使用XHTML
XHTML非常严格

4 使用HTMLParser

15.1.2 Beautiful Soup

15.2 使用CGI创建动态网页

15.3 使用web框架
Flask
其他web应用框架：
Django https://djangoproject.com
TurboGears http://turbogears.org
web2py http://web2py.com
Grok https://pypi.python.org/pypi/grok
Zope2 https://pypi.python.org/pypi/Zope2
Pyramid https://trypyramid.com/

15.4 Web服务：更高级的抓取

15.4.1 RSS和相关内容

15.4.2 使用XML-RPC进行远程过程调用

15.4.3 SOAP

15.5 小结

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

兔子鱼兮

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第15章 Python和Web

15.1 屏幕抓取#简单的屏幕抓起程序from urllib.request import urlopenimport rep = re.compile('&lt;a href="(.*?)"&gt;(.*?)&lt;/a&gt;')text = urlopen('http://www.baidu.com').read().decode()for url,name in p.finda...
复制链接

扫一扫