Python基础教程(第3版)中文版 第15章 python和web(笔记)

                                       第15章 python和web


1.屏幕抓取


通过程序下载网页并从中提取信息。
1.Tidy和XHTML解析
1.Tidy是什么?
Tidy是用于格式不正确且不严谨的HTML进行修复的工具。
2.获取Tidy
pip install pytidylib
3.为何使用XHTML
XHTML非常严格,便于解析
4.HTMLParser
使用HTMLParser:继承它,并重写事件处理方法。
handle_starttag(tag, attrs) 遇到开始标签时调用。attrs是一个由形如(name, value)的元组组成的序列
handle_startendtag(tag, attrs) 遇到空标签时调用。默认分别处理开始标签和结束标签
handle_endtag(tag) 遇到结束标签时调用
handle_data(data) 遇到文本数据时调用
handle_charref(ref) 遇到形如&#ref;的字符引用时调用
handle_entityref(name) 遇到形如&name;的实体引用时调用
handle_comment(data) 遇到注释时;只对注释内容调用
handle_decl(decl) 遇到形如<!...>的声明时调用
handle_pi(data) 用于处理指令
unknown_decl(data) 遇到未知声明时调用

2.Beautiful Soup
解析文本上不严谨的HTML
安装
pip install beautifulSoup4

2.使用CGI创建动态网页


CGI(通用网关接口),创建web应用的简单方式。

3.使用Web框架


4.web服务:更高级的抓取。


1.RSS和相关内容
RSS指富网站摘要(Rich Site Summary)、RDF网站摘要(RDF Site Summary)或简易信息聚合(Really Simple Syndication)。
通常RSS是一种以XML方式列出新闻的格式。
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一只大鸽子

如有帮助,欢迎关注同名公众号

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值