python读取每一行文字二十四_【推荐下载】24. Python脚本学习笔记二十四屏幕抓取...

24. Python

脚本学习笔记二十四屏幕抓取

2017/11/11 408

24. Python

脚本学习笔记二十四屏幕抓取

本篇名言:

静坐常思己过,闲谈莫论人非,能受苦乃为志士,肯吃亏不是痴

人,敬君子方显有德,怕小人不算无能,退一步天高地阔,知足者人心常乐!

屏幕抓取是程序下载网页并且提取信息的过程。可以在程序中使用在线的网页

中所包含的信息。如果是动态网页就更加有用。

可以使用

urllib

库获取网页的

HTML

源代码,然后使用正则表达式提取需要的

信息。不过这样实现存在几个问题:正则表达式不是完全可读,对于某些

HTML

性无法处理,被

HTML

源码约束等。

可以使用

Tidy

的程序和

XHTML

解析或者使用

BeautifulSoup

库。

1. Tidy

XHTML

解析

XHTML

HMTL

的最新方言,是

XML

的一种形式。

Tidy

是用来修复不规范且随意的

HTML

工具。能以相当智能的方法修复一般的

错误。

解析从

Tidy

中获得表现良好的

XHMTL

方法是使用

HTMLParserHTMLParser

的回调方法如下:

并不需要实现所有的回调函数。

屏幕抓取代码类似如下:

from urllib import urlopen

from HTMLParser import HTMLParser

class Scraper(HTMLParser):

in_h3 = False

in_link = False

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值