python学习：网页解析

最新推荐文章于 2024-06-08 11:12:05 发布

tomshall

最新推荐文章于 2024-06-08 11:12:05 发布

阅读量675

点赞数

分类专栏：技术文章标签： python 爬虫 html dom parse

本文链接：https://blog.csdn.net/tomshall/article/details/48584555

版权

本文介绍了使用Python进行网页解析的方法，通过自定义的webclient获取网页内容，并基于HTML标签的特点实现元素解析，着重讲解了如何寻找起始和结束标签来提取数据，最后给出了在剑侠情缘网络版三新闻页面的抓取示例。

摘要由CSDN通过智能技术生成

python学习：网页解析

python网页解析工具，可以根据标签特点获取相应标签中的内容。开始没有找到beautifulsoap这个强大的工具，同时也想提升程序的运行效率（自己的程序仅需运行一次），这里自己实现了一个可以根据HTML标签获取到网页元素的程序，这个程序是基于查找的形式对网页解析，没有对网页元素进行分类和归类。
程序基于python3.0,以上版本，分为两大块，webclient、html元素解析，具体的实现如下：

webclient网页获取器

这里采用urllib模块对网页URL进行访问并返回相应的网页信息。

mport urllib
import urllib.request
class HTMLClient:
    def GetPage(self, url):
        #user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' 
        user_agent = 'Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/34.0.1847.116 Chrome/34.0.1847.116 Safari/537.36'
        headers = { 'User-Agent' : user_agent }
        req = urllib.request.Request(url, None, headers)
        try:
            res = urllib.request.urlopen(req)
            return res.read().decode("utf-8")