文本分词

最新推荐文章于 2023-06-18 09:59:02 发布

baihaisheng

最新推荐文章于 2023-06-18 09:59:02 发布

阅读量713

点赞数

分类专栏： NLP 文章标签：自然语言处理 nlp

本文链接：https://blog.csdn.net/qq_41128383/article/details/105553722

版权

NLP 专栏收录该内容

88 篇文章 4 订阅

订阅专栏

jieba分词工具进行分词

+精确模式:试图将句子精确的切开，默认cut_all=False表示以精确模式

>>> content='我爱北京天安门'
**jieba.cut() 返回一个迭代器**
>>> jieba.cut(content)
<generator object Tokenizer.cut at 0x7f0e47c1ab48>

**直接以列表的形式返回**

>>> jieba.lcut(content)
Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.857 seconds.
Prefix dict has been built successfully.
['我', '爱', '北京', '天安门']

全模式：把句子所有可以成词的词语扫描出来，速度快，但是不能消除歧义，cut_all=True表示以全模式方式

>>> jieba.lcut(content,cut_all=True)
['我', '爱', '北京', '天安', '天安门']

搜索引擎模式：在精确模式的基础上对长词再次切分

**返回迭代器**
>>> jieba.cut_for_search(content)
<generator object Tokenizer.cut_for_search at 0x7f0e47c1ab48>
**直接以列表的方式返回**
>>> jieba.lcut_for_search(content)
['我', '爱', '北京', '天安', '天安门']

中文繁体分词

>>> content='煩惱即是菩提，我暫且不提'
>>> jieba.lcut(content)
['煩惱', '即', '是', '菩提', '，', '我', '暫且', '不', '提']

使用用户自定义词典
•添加自定义词典后, jieba能够准确识别词典中出现的词汇，提升整体的识别准确率
•词典格式: 每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒

>>> import jieba
>>> content='八一双鹿更名为八一南昌篮球队'
>>> jieba.lcut(content)
Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.867 seconds.
Prefix dict has been built successfully.
['八', '一双', '鹿', '更名', '为', '八一', '南昌', '篮球队']

**导入自定义的字典**

>>> jieba.load_userdict('./userdict.txt')
>>> jieba.lcut(content)
['八一双鹿', '更名', '为', '八一', '南昌', '篮球队']

词性标注
词性：标注出一段文本中每个词汇的词性，也是语言对词分类的一种方法

>>> import jieba.posseg as pseg
>>> 
>>> 
>>> pseg.lcut(content)
[pair('八一双鹿', 'nz'), pair('更名', 'v'), pair('为', 'p'), pair('八一', 'm'), pair('南昌', 'ns'), pair('篮球队', 'n')]

jieba词性对照表:

- a 形容词  
    - ad 副形词  
    - ag 形容词性语素  
    - an 名形词  
- b 区别词  
- c 连词  
- d 副词  
    - df   
    - dg 副语素  
- e 叹词  
- f 方位词  
- g 语素  
- h 前接成分  
- i 成语 
- j 简称略称  
- k 后接成分  
- l 习用语  
- m 数词  
    - mg 
    - mq 数量词  
- n 名词  
    - ng 名词性语素  
    - nr 人名  
    - nrfg    
    - nrt  
    - ns 地名  
    - nt 机构团体名  
    - nz 其他专名  
- o 拟声词  
- p 介词  
- q 量词  
- r 代词  
    - rg 代词性语素  
    - rr 人称代词  
    - rz 指示代词  
- s 处所词  
- t 时间词  
    - tg 时语素  
- u 助词  
    - ud 结构助词 得
    - ug 时态助词
    - uj 结构助词 的
    - ul 时态助词 了
    - uv 结构助词 地
    - uz 时态助词 着
- v 动词  
    - vd 副动词
    - vg 动词性语素  
    - vi 不及物动词  
    - vn 名动词  
    - vq 
- x 非语素词  
- y 语气词  
- z 状态词  
    - zg

hanlp词性对照表:

【Proper Noun——NR，专有名词】

【Temporal Noun——NT，时间名词】

【Localizer——LC，定位词】如“内”，“左右”

【Pronoun——PN，代词】

【Determiner——DT，限定词】如“这”，“全体”

【Cardinal Number——CD，量词】

【Ordinal Number——OD，次序词】如“第三十一”

【Measure word——M，单位词】如“杯”

【Verb：VA，VC，VE，VV，动词】

【Adverb：AD，副词】如“近”，“极大”

【Preposition：P，介词】如“随着”

【Subordinating conjunctions：CS，从属连词】

【Conjuctions：CC，连词】如“和”

【Particle：DEC,DEG,DEV,DER,AS,SP,ETC,MSP，小品词】如“的话”

【Interjections：IJ，感叹词】如“哈”

【onomatopoeia：ON，拟声词】如“哗啦啦”

【Other Noun-modifier：JJ】如“发稿/JJ 时间/NN”

【Punctuation：PU，标点符号】

【Foreign word：FW，外国词语】如“OK