NLP之文本处理的基本方法

针对pip下载速度慢大家可以参考,【我的pip终于神速了】解决pip安装速度慢的问题

一:jieba的使用

  • 精确模式的分词        
    • 试图将句子最精确的分开,适合文本分析
import jieba
content="我不可能学会NLP"
print(jieba.lcut(content,cut_all=False))#精确模式
print(jieba.lcut(content,cut_all=True))#全模式
print(jieba.lcut_for_search(content))#搜索引擎模式
  • 全模式分词
    • 把句子中的所有可以成词的词语都扫描出来,速度快但不能消除歧义

  • 搜索引擎模式分词
    • 在精确模式的基础上,对长词在进行切分提高召回率,适合用于搜索引擎分词
  • 使用用户自定义词典
    • import jieba
      content="八一双鹿更名为八一南昌篮球队"
      print(jieba.lcut(content,cut_all=False))
      jieba.load_userdict("./userdict.txt")
      print(jieba.lcut(content,cut_all=False))

二:命名实体识别

命名实体:通常将人名、地名、机构名等专有名词统称命名实体

识别出一段文本中可能存在的命名实体,并给出其在列表中的位置

import hanlp

#识别器
recognizer=hanlp.load(hanlp.pretrained.ner.MSRA_NER_BERT_BASE_ZH)
list1=list('鲁迅是中国作家.')
list2=list('上海华安工业集团公司董事长谭旭光和秘书张婉霞来到美国纽约现代艺术博物馆参观')

print(recognizer(list2))

三:词性标注 

词性标注以分词为基础,是对文本语言的另一个角度的理解

import jieba.posseg as pseg
content="我爱自然语言处理"
print(pseg.lcut(content))

当用hanlp进行处理的时候报错了

 

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小李小于

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值