【html】Python提取html中文本到txt

最新推荐文章于 2024-03-28 15:29:44 发布

彳亍261

最新推荐文章于 2024-03-28 15:29:44 发布

阅读量2.4k

点赞数 3

分类专栏： Python 解决方案文章标签： python html html转txt

本文链接：https://blog.csdn.net/chichu261/article/details/107526195

版权

Python 同时被 2 个专栏收录

59 篇文章 4 订阅

订阅专栏

解决方案

27 篇文章 0 订阅

订阅专栏

正则去标签方式

# -*- coding: utf-8 -*-
import re

def html_tag_rm(content: str):
	dr = re.compile(r'<[^>]+>',re.S)
	return dr.sub('',content)

nltk

比较笨重
需要安装依赖 nltk, numpy, pyyaml

# -*- coding: utf-8 -*-
import nltk


def html_tag_rm(content: str):
	return nltk.clean_html(content)

htmlParser

import re
from sys import stderr 
from traceback import print_exc
from HTMLParser import HTMLParser

 
class _DeHTMLParser(HTMLParser): 
    def __init__(self): 
        HTMLParser.__init__(self) 
        self.__text = [] 
 
    def handle_data(self, data): 
        text = data.strip() 
        if len(text) > 0: 
            text = re.sub('[ \t\r\n]+', ' ', text) 
            self.__text.append(text + ' ') 
 
    def handle_starttag(self, tag, attrs): 
        if tag == 'p': 
            self.__text.append('\n\n') 
        elif tag == 'br': 
            self.__text.append('\n') 
 
    def handle_startendtag(self, tag, attrs): 
        if tag == 'br': 
            self.__text.append('\n\n') 
 
    def text(self): 
        return ''.join(self.__text).strip() 
 
 
def dehtml(text): 
    try: 
        parser = _DeHTMLParser() 
        parser.feed(text) 
        parser.close() 
        return parser.text() 
    except: 
        print_exc(file=stderr) 
        return text 
 
 
def main(): 
    text = r'''''
        <html>
            <body>
                <b>Project:</b> DeHTML<br>
                <b>Description</b>:<br>
                This small script is intended to allow conversion from HTML markup to 
                plain text.
            </body>
        </html>
    ''' 
    print(dehtml(text)) 
 
 
if __name__ == '__main__': 
    main()

彳亍261

关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
【html】Python提取html中文本到txt

正则去标签方式# -*- coding: utf-8 -*-import redef html_tag_rm(content: str): dr = re.compile(r'<[^>]+>',re.S) return dr.sub('',content)nltk比较笨重需要安装依赖 nltk, numpy, pyyaml# -*- coding: utf-8 -*-import nltkdef html_tag_rm(content: str): retu
复制链接

扫一扫