python 中文转拼音原理_Python_ jieba、snownlp中文分词、Pinyin中文转拼音

一、安装

pip install jieba

pip install snownlp # 使用这个,建议使用Python3环境

pip install pypinyin

分词:

jieba分词

# jieba分词

>>> import jieba

>>> text = "我说我应该好好学习"

>>> cutafter = list(jieba.cut(text))

Building prefix dict from the default dictionary ...

Dumping model to file cache c:\users\ztdn00\appdata\local\temp\jieba.cache

Loading model cost 5.820 seconds.

Prefix dict has been built succesfully.

>>> print cutafter

[u'\u6211', u'\u8bf4', u'\u6211', u'\u5e94\u8be5', u'\u597d\u597d\u5b66\u4e60']

>>> for t in cutafter:

print t

应该

好好学习

>>>

snownlp 分词,Python3的环境下可以正常分词

# snownlp 分词

>>> import snownlp

>>> t = "我说我应该好好学习"

>>> sn = snownlp.SnowNLP(t).words

>>> print(sn)

['我', '说', '我', '应该', '好好', '学习']

>>>

Python2 环境下是酱紫的:

>>> import snownlp

>>> t = "我说我应该好好学习"

>>> print snownlp.SnowNLP(t).words

['\xce\xd2\xcb\xb5\xce\xd2\xd3\xa6\xb8\xc3\xba\xc3\xba\xc3\xd1\xa7\xcf\xb0']

>>>

可以看出分词是没成功的哈

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值