中文分词工具及其相关网站
- HanLP:https://www.hanlp.com/
- 语言云:http://www.ltp-cloud.com/
- NLPIR:http://ictclas.nlpir.org/
- 新浪云:https://www.sinacloud.com/doc/sae/python/segment.html
- 搜狗分词:https://www.sogou.com/labs/webservice/
- jieba分词:https://github.com/fxsjy/jieba
- SCWS:https://github.com/hightman/scws
- 腾讯文智:https://wiki.open.qq.com/wiki/%E8%85%BE%E8%AE%AF%E6%96%87%E6%99%BA%E6%A6%82%E8%A7%88
中文分词很多,尤其是结巴(jieba)是比较流行的,所以以jieba为例。
本人没做过自创的项目,但是跑过几十个github上的项目,所以还是懂点“规矩的”
readme书写方式也是刚刚学习了一下:参考:https://blog.csdn.net/qq_35711549/article/details/88396328
readme.txt
一、国际化
没有国际化,不想用英文表达。
项目地址:https://github.com/Zach-PineappleMan/Zach_NPL/01基于jieba中文分词的应用二、介绍
子项目名称:01基于jieba中文分词的应用
项目目的:学习自然语言处理三、效果图
四、特点
很容易实现
五、基本结构
谈不上结构
六、集成方式
谈不上集成
七、使用方法
- 安装jieba:使用pip安装pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba
- 运行程序:使用pycharm,但是我更喜欢jupyter lab,但是不冲突;
八、关于作者
Name: Zach XXXXX
E-mail:354399824@qq.com
I’d like to communicate with each other by email.九、contributors
myself
十、Thanks
Thanks for your reading.
哈哈哈哈,第一次写,写的不好欢迎指正哦。
代码展示1
代码展示2
由于本专栏的目的是生成文本,所以把句子光看成一个词一个词或者一个短语一个短语是不够的,接下来是我们可能需要用到的:jieba的cut_for_search的使用。
今天的案例很简单,我继续搜索一些资料为明天做准备,哈哈哈哈。今天很轻松呢。
参考资料:
- 自然语言处理理论与实战 (唐聃 等著) 第九章 中文分词
- https://blog.csdn.net/qq_35711549/article/details/88396328