python 解析html代码，获取所需数据

最新推荐文章于 2024-08-27 10:00:00 发布

生死有命_富贵在天

最新推荐文章于 2024-08-27 10:00:00 发布

阅读量3.3k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/u014450465/article/details/83023362

版权

python 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

from html.parser import HTMLParser
from html.entities import name2codepoint
from urllib import request
import re


class MyHTML(HTMLParser):

    def init(self):
        self.__parsedata = ''  # 设置一个空状态
        self.bj = '';
    def handle_starttag(self, tag, attrs):
        if ('class', 'event-title') in attrs:#获取class=event-title的属性名称
            self.__parsedata = 'name'  # 设置爬取名称状态
        if tag == 'time':
            self.__parsedata = 'time'
        if ('class', 'say-no-more') in attrs:
            self.__parsedata = 'year'
        if ('class', 'event-location') in attrs:
            self.__parsedata = 'location'
        if('title','More Events') in attrs:
            for k,v in attrs:
                if k == 'href':
                   self.bj = re.findall(r'\d',v)[0]#获取分页数据


    def handle_endtag(self, tag):
        if tag == 'h3' or tag == 'span':#获取数据结束标记
            self.__parsedata = ''

    def handle_startendtag(self, tag, attrs):
            '''print('<%s/>' % tag)'''
           #tag:类似于这种<a/>，一个标签中含有结束符号

    def handle_data(self, data):
        with open('mytext.txt', 'a+') as f:#将内容写入mytext.txt文件中,a+不断往文件里面添加，不会覆盖原内容
            if self.__parsedata == 'name':
                print('会议名称:%s' % data)
                f.write(data+'\n')

            if self.__parsedata == 'time':
                print('会议时间:%s' % data)
                f.write(data + '\n')
            if self.__parsedata == 'year':
                if re.match(r'\s\d{4}', data):
                    # 因为后面还有两组 say-no-more 后面的data却不是年份信息,所以用正则检测一下
                    print('会议年份:%s' % data.strip())
                    f.write(data.strip() + '\n')
            if self.__parsedata == 'location':
                print('会议地点:%s' % data)
                f.write(data + '\n\n')
            f.close()

    def handle_comment(self, data):
        '''print('<!--', data, '-->')'''

    def handle_entityref(self, name):
        '''print('&%s;' % name)'''

    def handle_charref(self, name):

       '''print('&#%s;' % name)'''

parser = MyHTML()
parser.init()
flag = ''#退出查询标记
while True:
    if parser.bj == '':
        with request.urlopen('https://www.python.org/events/python-events/') as f:
            data = f.read()
            req = data.decode('utf-8')
            parser.feed(req)
    else:
        if flag != parser.bj:
            with request.urlopen('https://www.python.org/events/python-events/?page='+parser.bj) as f:
                flag = parser.bj
                data = f.read()
                req = data.decode('utf-8')
                parser.feed(req)

        else:
            exit()