python学习:网页解析

本文介绍了使用Python进行网页解析的方法,通过自定义的webclient获取网页内容,并基于HTML标签的特点实现元素解析,着重讲解了如何寻找起始和结束标签来提取数据,最后给出了在剑侠情缘网络版三新闻页面的抓取示例。
摘要由CSDN通过智能技术生成

python学习:网页解析

python网页解析工具,可以根据标签特点获取相应标签中的内容。开始没有找到beautifulsoap这个强大的工具,同时也想提升程序的运行效率(自己的程序仅需运行一次),这里自己实现了一个可以根据HTML标签获取到网页元素的程序,这个程序是基于查找的形式对网页解析,没有对网页元素进行分类和归类。
程序基于python3.0,以上版本,分为两大块,webclient、html元素解析,具体的实现如下:

webclient网页获取器

这里采用urllib模块对网页URL进行访问并返回相应的网页信息。

mport urllib
import urllib.request
class HTMLClient:
    def GetPage(self, url):
        #user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' 
        user_agent = 'Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/34.0.1847.116 Chrome/34.0.1847.116 Safari/537.36'
        headers = { 'User-Agent' : user_agent }
        req = urllib.request.Request(url, None, headers)
        try:
            res = urllib.request.urlopen(req)
            return res.read().decode("utf-8")
        
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值