texthero的初次使用

最新推荐文章于 2024-05-02 21:10:32 发布

python__reported

最新推荐文章于 2024-05-02 21:10:32 发布

阅读量2.7k

点赞数

分类专栏：自然语言处理 python其它库文章标签： python 自然语言处理

本文链接：https://blog.csdn.net/python__reported/article/details/107634477

版权

自然语言处理同时被 2 个专栏收录

11 篇文章

订阅专栏

python其它库

2 篇文章

订阅专栏

texthero的初次使用

一、下载

一、下载

最简单的就是直接pip下载
pip install texthero

但是有许多依赖库，可能下载时间较长
在这里插入图片描述

同时在初次使用时还会对一些数据进行下载，

注意：对于这些数据的下载是需要挂上vpn的，否者下载不下来

二、初次使用

基本就是照搬texthero的示例，只是我用中文测试了一下

中文测试内容来源：《对话｜“我是讽刺那些假大师”，当武术表演遭遇网红行为艺术》澎湃新闻记者蒲垚磊2020-07-27 15:39 来源：澎湃新闻

在这里插入图片描述

选中的内容就是测试的内容

 """简单的文本清理管道"""
 #显示所有的行列
 pd.set_option('display.max_columns', None)
# 显示所有行
 pd.set_option('display.max_rows', None)
# 设置value的显示长度为100，默认为50
pd.set_option('max_colwidth', 100)
text = "视频中的表演者何维越在接受澎湃新闻记者采访时表示，这段“武术表演”其实是为了讽刺那些招摇撞骗的假大师，他自己其实是传统武术爱好者。此前，他已经做过许多类似的反讽表演。（12306/）！"
#格式化为series格式
s = pd.Series(text)
print(s)#This sèntencé    (123 /) needs to [OK!] be cleaned!
#去掉了数字
s = hero.remove_digits(s)
print(s)#This sèntencé    (  /) needs to [OK!] be cleaned!
#删除所有类型的括号及其内容
s = hero.remove_brackets(s)
print(s)
#删除变音符号即声标
s = hero.remove_diacritics(s)
print(s)
#删除标点符号。
s = hero.remove_punctuation(s)
print(s)
#删除多余的空格。
s = hero.remove_whitespace(s)
print(s)

#停用词,无意义的词
s = hero.remove_stopwords(s)
print(s)

#nlp提取名词
s = hero.named_entities(s)
print("nlp:",s)

s = hero.noun_chunks(s)
print(s)

在这里插入图片描述