jieba分词工具进行分词
+精确模式:试图将句子精确的切开,默认cut_all=False表示以精确模式
>>> content='我爱北京天安门'
**jieba.cut() 返回一个迭代器**
>>> jieba.cut(content)
<generator object Tokenizer.cut at 0x7f0e47c1ab48>
**直接以列表的形式返回**
>>> jieba.lcut(content)
Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.857 seconds.
Prefix dict has been built successfully.
['我', '爱', '北京', '天安门']
- 全模式:把句子所有可以成词的词语扫描出来,速度快,但是不能消除歧义,cut_all=True表示以全模式方式
>>> jieba.lcut(content,cut_all=True)
['我', '爱', '北京', '天安', '天安门']
- 搜索引擎模式:在精确模式的基础上对长词再次切分
**返回迭代器**
>>> jieba.cut_for_search(content)
<generator object Tokenizer.cut_for_search at 0x7f0e47c1ab48>
**直接以列表的方式返回**
>>> jieba.lcut_for_search(content)
['我', '爱', '北京', '天安', '天安门']
- 中文繁体分词
>>> content='煩惱即是菩提,我暫且不提'
>>> jieba.lcut(content)
['煩惱', '即', '是', '菩提', ',', '我', '暫且', '不', '提']
- 使用用户自定义词典
•添加自定义词典后, jieba能够准确识别词典中出现的词汇,提升整体的识别准确率
•词典格式: 每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒
>>> import jieba
>>> content='八一双鹿更名为八一南昌篮球队'
>>> jieba.lcut(content)
Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.867 seconds.
Prefix dict has been built successfully.
['八', '一双', '鹿', '更名', '为', '八一', '南昌', '篮球队']
**导入自定义的字典**
>>> jieba.load_userdict('./userdict.txt')
>>> jieba.lcut(content)
['八一双鹿', '更名', '为', '八一', '南昌', '篮球队']
- 词性标注
词性:标注出一段文本中每个词汇的词性,也是语言对词分类的一种方法
>>> import jieba.posseg as pseg
>>>
>>>
>>> pseg.lcut(content)
[pair('八一双鹿', 'nz'), pair('更名', 'v'), pair('为', 'p'), pair('八一', 'm'), pair('南昌', 'ns'), pair('篮球队', 'n')]
jieba词性对照表:
- a 形容词
- ad 副形词
- ag 形容词性语素
- an 名形词
- b 区别词
- c 连词
- d 副词
- df
- dg 副语素
- e 叹词
- f 方位词
- g 语素
- h 前接成分
- i 成语
- j 简称略称
- k 后接成分
- l 习用语
- m 数词
- mg
- mq 数量词
- n 名词
- ng 名词性语素
- nr 人名
- nrfg
- nrt
- ns 地名
- nt 机构团体名
- nz 其他专名
- o 拟声词
- p 介词
- q 量词
- r 代词
- rg 代词性语素
- rr 人称代词
- rz 指示代词
- s 处所词
- t 时间词
- tg 时语素
- u 助词
- ud 结构助词 得
- ug 时态助词
- uj 结构助词 的
- ul 时态助词 了
- uv 结构助词 地
- uz 时态助词 着
- v 动词
- vd 副动词
- vg 动词性语素
- vi 不及物动词
- vn 名动词
- vq
- x 非语素词
- y 语气词
- z 状态词
- zg
hanlp词性对照表:
【Proper Noun——NR,专有名词】
【Temporal Noun——NT,时间名词】
【Localizer——LC,定位词】如“内”,“左右”
【Pronoun——PN,代词】
【Determiner——DT,限定词】如“这”,“全体”
【Cardinal Number——CD,量词】
【Ordinal Number——OD,次序词】如“第三十一”
【Measure word——M,单位词】如“杯”
【Verb:VA,VC,VE,VV,动词】
【Adverb:AD,副词】如“近”,“极大”
【Preposition:P,介词】如“随着”
【Subordinating conjunctions:CS,从属连词】
【Conjuctions:CC,连词】如“和”
【Particle:DEC,DEG,DEV,DER,AS,SP,ETC,MSP,小品词】如“的话”
【Interjections:IJ,感叹词】如“哈”
【onomatopoeia:ON,拟声词】如“哗啦啦”
【Other Noun-modifier:JJ】如“发稿/JJ 时间/NN”
【Punctuation:PU,标点符号】
【Foreign word:FW,外国词语】如“OK