NLP之文本处理的基本方法

最新推荐文章于 2024-07-30 09:45:58 发布

小李小于

最新推荐文章于 2024-07-30 09:45:58 发布

阅读量900

点赞数 2

分类专栏： NLP 文章标签：自然语言处理人工智能 nlp

本文链接：https://blog.csdn.net/qq_56350439/article/details/122330592

版权

NLP 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

针对pip下载速度慢大家可以参考，【我的pip终于神速了】解决pip安装速度慢的问题

一：jieba的使用

精确模式的分词
试图将句子最精确的分开，适合文本分析
import jieba
content="我不可能学会NLP"
print(jieba.lcut(content,cut_all=False))#精确模式
print(jieba.lcut(content,cut_all=True))#全模式
print(jieba.lcut_for_search(content))#搜索引擎模式
全模式分词
把句子中的所有可以成词的词语都扫描出来，速度快但不能消除歧义
搜索引擎模式分词
在精确模式的基础上，对长词在进行切分提高召回率，适合用于搜索引擎分词
使用用户自定义词典
import jieba
content="八一双鹿更名为八一南昌篮球队"
print(jieba.lcut(content,cut_all=False))
jieba.load_userdict("./userdict.txt")
print(jieba.lcut(content,cut_all=False))

二：命名实体识别

命名实体：通常将人名、地名、机构名等专有名词统称命名实体

识别出一段文本中可能存在的命名实体，并给出其在列表中的位置
import hanlp

#识别器
recognizer=hanlp.load(hanlp.pretrained.ner.MSRA_NER_BERT_BASE_ZH)
list1=list('鲁迅是中国作家.')
list2=list('上海华安工业集团公司董事长谭旭光和秘书张婉霞来到美国纽约现代艺术博物馆参观')

print(recognizer(list2))

三：词性标注

词性标注以分词为基础，是对文本语言的另一个角度的理解

import jieba.posseg as pseg
content="我爱自然语言处理"
print(pseg.lcut(content))
当用hanlp进行处理的时候报错了

小李小于

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
NLP之文本处理的基本方法

一：jieba的使用精确模式的分词试图将句子最精确的分开，适合文本分析 import jiebacontent="我不可能学会NLP"print(jieba.lcut(content,cut_all=False))#精确模式print(jieba.lcut(content,cut_all=True))#全模式print(jieba.lcut_for_search(content))#搜索引擎模式全模式分词把句子中的所有可以成词的词语都扫描出来，速度快但不能...
复制链接

扫一扫