Python基础教程（第3版）中文版第15章 python和web（笔记）

一只大鸽子

于 2018-08-29 17:17:07 发布

阅读量409

点赞数

分类专栏： # python基础教程文章标签： python和web

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41068877/article/details/82188075

版权

python基础教程专栏收录该内容

21 篇文章 2 订阅

订阅专栏

第15章 python和web

1.屏幕抓取

通过程序下载网页并从中提取信息。
1.Tidy和XHTML解析
1.Tidy是什么？
Tidy是用于格式不正确且不严谨的HTML进行修复的工具。
2.获取Tidy
pip install pytidylib
3.为何使用XHTML
XHTML非常严格，便于解析
4.HTMLParser
使用HTMLParser：继承它，并重写事件处理方法。
handle_starttag(tag, attrs) 遇到开始标签时调用。attrs是一个由形如(name, value)的元组组成的序列
handle_startendtag(tag, attrs) 遇到空标签时调用。默认分别处理开始标签和结束标签
handle_endtag(tag) 遇到结束标签时调用
handle_data(data) 遇到文本数据时调用
handle_charref(ref) 遇到形如&#ref;的字符引用时调用
handle_entityref(name) 遇到形如&name;的实体引用时调用
handle_comment(data) 遇到注释时；只对注释内容调用
handle_decl(decl) 遇到形如<!...>的声明时调用
handle_pi(data) 用于处理指令
unknown_decl(data) 遇到未知声明时调用

2.Beautiful Soup
解析文本上不严谨的HTML
安装
pip install beautifulSoup4

2.使用CGI创建动态网页

CGI（通用网关接口），创建web应用的简单方式。

3.使用Web框架

4.web服务：更高级的抓取。

1.RSS和相关内容
RSS指富网站摘要(Rich Site Summary)、RDF网站摘要(RDF Site Summary)或简易信息聚合(Really Simple Syndication)。
通常RSS是一种以XML方式列出新闻的格式。

一只大鸽子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python基础教程（第3版）中文版第15章 python和web（笔记）

第15章 python和web1.屏幕抓取通过程序下载网页并从中提取信息。1.Tidy和XHTML解析1.Tidy是什么？Tidy是用于格式不正确且不严谨的HTML进行修复的工具。2.获取Tidypip install pytidylib3.为何使用XHTMLXHTML非常严格，便于解析4.H...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

一只大鸽子 如有帮助，欢迎关注同名公众号

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。