使用python做简单的中文自然语言处理

最新推荐文章于 2024-06-12 09:07:04 发布

goskiller

最新推荐文章于 2024-06-12 09:07:04 发布

阅读量2.5w

点赞数 3

分类专栏： python 自然语言处理 NLP nltk jieba

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28887735/article/details/78856153

版权

python 同时被 3 个专栏收录

6 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

最近在学习NLP（自然语言处理），于是先看了看都有神马包可以使用，查了一遍网上说是NLTK包，下载了然后才想到我是要学中文的自然语言处理，于是就想看看专门处理中文的包有哪些。

又是一番搜索，我找到了网络大神们目前比较推崇的结巴分词（jieba），下载下来试了一下，感觉分词功能不错，于是写篇文章记录一下。

我用的是centos7的虚拟机，已经安装了anaconda3（后文会解释安装centos7虚拟系统的曲折经历），下载结巴分词有如下几种方式：

1、全自动安装： easy_install jieba 或者 pip install jieba / pip3 install jieba（我是全自动安装的）

2、半自动安装：先下载 http://pypi.python.org/pypi/jieba/ ，解压后运行 python setup.py install

3、手动安装：将 jieba 目录放置于当前目录或者 site-packages 目录

然后用root用户在终端直接进入python，进入python命令行页面。

代码示例如下（记得每次在print出结果之前，都需要对变量重新赋值）：

# encoding=utf-8
import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造") # 搜索引擎模式
print(", ".join(seg_list))

目前就是刚刚上手，如何具体应用可能还需要跟nltk一起钻研后才能给出，我会在下一篇文章中做更深层次的说明。

关注

3
点赞
踩
37

收藏

觉得还不错? 一键收藏
1
评论
使用python做简单的中文自然语言处理

最近在学习NLP（自然语言处理），于是先看了看都有神马包可以使用，查了一遍网上说是NLTK包，下载了然后才想到我是要学中文的自然语言处理，于是就想看看专门处理中文的包有哪些。又是一番搜索，我找到了网络大神们目前比较推崇的结巴分词（jieba），下载下来试了一下，感觉分词功能不错，于是写篇文章记录一下。我用的是centos7的虚拟机，已经安装了anaconda
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。