python学习:网页解析
python网页解析工具,可以根据标签特点获取相应标签中的内容。开始没有找到beautifulsoap这个强大的工具,同时也想提升程序的运行效率(自己的程序仅需运行一次),这里自己实现了一个可以根据HTML标签获取到网页元素的程序,这个程序是基于查找的形式对网页解析,没有对网页元素进行分类和归类。
程序基于python3.0,以上版本,分为两大块,webclient、html元素解析,具体的实现如下:
webclient网页获取器
这里采用urllib模块对网页URL进行访问并返回相应的网页信息。
mport urllib
import urllib.request
class HTMLClient:
def GetPage(self, url):
#user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
user_agent = 'Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/34.0.1847.116 Chrome/34.0.1847.116 Safari/537.36'
headers = { 'User-Agent' : user_agent }
req = urllib.request.Request(url, None, headers)
try:
res = urllib.request.urlopen(req)
return res.read().decode("utf-8")