1、下载网页 urllib、urllib2 2、网页解析 re:正则表达式 lxml:C语言编写高效HTML/ XML处理库。支持XPath。 BeautifulSop: 低效HTML/ XML处理库,纯Python实现。