Python3 HTML 解析器

作为爬虫比较重要的一部分HTML解析器:

Python3 自己有一个,使用了一下,还不是很好用

第三方的有:

 目前还不支持Python3 , Python3 的资料还不是很多

 BeautifulSoup -- 支持版本2.x 很不错,我不想退版本,以后他有了我再用

Chilkat Spider component -==-- 专门支持爬虫的库, 看了一下还行,


使用库,失去的这个项目原有的初衷,所以放弃把,

剩下的就是慢慢的分析包结构和逻辑了

急需努力把

本周末发布c# 第一个版本 给予2的升级

Python 2版本,打算重写, 不用过去的升级 

希望这轮的升级可以对Python有一个新的认识


###解析超文本这个思路过于难,以后在考虑

###目前没有好用的库
from html.parser import HTMLParser


class MyHTMLParser(HTMLParser):
    def handle_starttag(self, tag, attrs):
        #print("Encountered a {} 测试".format(tag))
        #print(format(attrs))


        #当前资源田的级别和位置连接
        # if tag=='area':
        #     print("Encountered a {} start tag".format(tag))
        #     #print(format(attrs))


        # if tag == 'res':
        #     print(format(attrs))


        # if tag == 'tbody':
        #     print(format(tag))
        #     print(format(attrs))


        if tag == 'l1':
            print(format(tag))
            print(format(attrs))


        #每小时产量
        if tag == 'li':
            print(format(tag))
            print(format(attrs))
       
    def handle_endtag(self, tag):
        if tag=='area':
            print("Encountered a {} end tag".format(tag))            
        if tag == 'res':
            print(format(attrs))


#1 page = """<html><h1>Title</h1><p>I'm a paragraph!</p></html>"""


#2-==============test code start======================--
file=open('temp.html',encoding='utf-8')
p=file.read()
#2 test code end-=====================================--


myparser = MyHTMLParser()
myparser.feed(p)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值