文本分词

jieba分词工具进行分词

+精确模式:试图将句子精确的切开,默认cut_all=False表示以精确模式

>>> content='我爱北京天安门'
**jieba.cut() 返回一个迭代器**
>>> jieba.cut(content)
<generator object Tokenizer.cut at 0x7f0e47c1ab48>

**直接以列表的形式返回**

>>> jieba.lcut(content)
Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.857 seconds.
Prefix dict has been built successfully.
['我', '爱', '北京', '天安门']

  • 全模式:把句子所有可以成词的词语扫描出来,速度快,但是不能消除歧义,cut_all=True表示以全模式方式
>>> jieba.lcut(content,cut_all=True)
['我', '爱', '北京', '天安', '天安门']

  • 搜索引擎模式:在精确模式的基础上对长词再次切分
**返回迭代器**
>>> jieba.cut_for_search(content)
<generator object Tokenizer.cut_for_search at 0x7f0e47c1ab48>
**直接以列表的方式返回**
>>> jieba.lcut_for_search(content)
['我', '爱', '北京', '天安', '天安门']

  • 中文繁体分词
>>> content='煩惱即是菩提,我暫且不提'
>>> jieba.lcut(content)
['煩惱', '即', '是', '菩提', ',', '我', '暫且', '不', '提']
  • 使用用户自定义词典
    •添加自定义词典后, jieba能够准确识别词典中出现的词汇,提升整体的识别准确率
    •词典格式: 每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒
>>> import jieba
>>> content='八一双鹿更名为八一南昌篮球队'
>>> jieba.lcut(content)
Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.867 seconds.
Prefix dict has been built successfully.
['八', '一双', '鹿', '更名', '为', '八一', '南昌', '篮球队']

**导入自定义的字典**

>>> jieba.load_userdict('./userdict.txt')
>>> jieba.lcut(content)
['八一双鹿', '更名', '为', '八一', '南昌', '篮球队']

  • 词性标注
    词性:标注出一段文本中每个词汇的词性,也是语言对词分类的一种方法
>>> import jieba.posseg as pseg
>>> 
>>> 
>>> pseg.lcut(content)
[pair('八一双鹿', 'nz'), pair('更名', 'v'), pair('为', 'p'), pair('八一', 'm'), pair('南昌', 'ns'), pair('篮球队', 'n')]

jieba词性对照表:

- a 形容词  
    - ad 副形词  
    - ag 形容词性语素  
    - an 名形词  
- b 区别词  
- c 连词  
- d 副词  
    - df   
    - dg 副语素  
- e 叹词  
- f 方位词  
- g 语素  
- h 前接成分  
- i 成语 
- j 简称略称  
- k 后接成分  
- l 习用语  
- m 数词  
    - mg 
    - mq 数量词  
- n 名词  
    - ng 名词性语素  
    - nr 人名  
    - nrfg    
    - nrt  
    - ns 地名  
    - nt 机构团体名  
    - nz 其他专名  
- o 拟声词  
- p 介词  
- q 量词  
- r 代词  
    - rg 代词性语素  
    - rr 人称代词  
    - rz 指示代词  
- s 处所词  
- t 时间词  
    - tg 时语素  
- u 助词  
    - ud 结构助词 得
    - ug 时态助词
    - uj 结构助词 的
    - ul 时态助词 了
    - uv 结构助词 地
    - uz 时态助词 着
- v 动词  
    - vd 副动词
    - vg 动词性语素  
    - vi 不及物动词  
    - vn 名动词  
    - vq 
- x 非语素词  
- y 语气词  
- z 状态词  
    - zg 

hanlp词性对照表:

【Proper Noun——NR,专有名词】

【Temporal Noun——NT,时间名词】

【Localizer——LC,定位词】如“内”,“左右”

【Pronoun——PN,代词】

【Determiner——DT,限定词】如“这”,“全体”

【Cardinal Number——CD,量词】

【Ordinal Number——OD,次序词】如“第三十一”

【Measure word——M,单位词】如“杯”

【Verb:VA,VC,VE,VV,动词】

【Adverb:AD,副词】如“近”,“极大”

【Preposition:P,介词】如“随着”

【Subordinating conjunctions:CS,从属连词】

【Conjuctions:CC,连词】如“和”

【Particle:DEC,DEG,DEV,DER,AS,SP,ETC,MSP,小品词】如“的话”

【Interjections:IJ,感叹词】如“哈”

【onomatopoeia:ON,拟声词】如“哗啦啦”

【Other Noun-modifier:JJ】如“发稿/JJ 时间/NN”

【Punctuation:PU,标点符号】

【Foreign word:FW,外国词语】如“OK
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值