Python 有哪几种网页解析器
正则表达式–模糊匹配
- html.parser–结构化解析( 就是一个DOM 树结构)
- BeautifulSoup支持(html.parser, lxml)–结构化解析
- lxml–结构化解析
-
下载网页方法
一般有三种方法, 第三种方法处理特殊情景:
HTTPCookieProcessor,
ProxyHandler, HTTPSHandler,
HTTPRedirectHandler
使用:
opener = urllib2.build_opener(handler)
urllib2.install_opener(opener)