初识jieba（py3）

最新推荐文章于 2023-11-28 12:06:22 发布

paulsweet_M

最新推荐文章于 2023-11-28 12:06:22 发布

阅读量398

点赞数

分类专栏： jieba python3

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/paulsweet123/article/details/52357501

版权

python3 同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

data=open('/Users/momo/Desktop/小论文/模拟/红楼梦/红楼梦.txt')  

#for line in data:
   # print(line)
type(data)
fout = open('/Users/momo/Desktop/小论文/模拟/红楼梦/output.txt', 'w')

import jieba as jb

seg_list = jb.cut('你是谁', cut_all=True)

print("Full Mode:", "/ ".join(seg_list))  # 全模式

Full Mode: 你/ 是/ 谁

for eachLine in data: 
    wordList = list(jb.cut(eachLine))#用结巴分词，对每行内容进行分词
    outStr = '' 
    for word in wordList:  
            outStr += word  
            outStr += '/ '
    fout.write(outStr.strip()+'\n') #将分词好的结果写入到输出文件
data.close()  
fout.close()

待学习：分词流程处理，分词字典应用

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

paulsweet_M CSDN认证博客专家 CSDN认证企业博客

码龄8年

120: 原创

26万+: 周排名

215万+: 总排名

12万+: 访问

: 等级

1419: 积分

10: 粉丝

19: 获赞

5: 评论

39: 收藏

私信

关注

热门文章

分类专栏

R 1篇
R 17篇
Linux 5篇
Algorithm 2篇
C 30篇
Advanced Mathema 2篇
Statistics 2篇
game 2篇
life 2篇
python 18篇
ENG 1篇
mooc_python 12篇
python2 2篇
jieba 1篇
python3 9篇
JoinQuant 2篇
Numpy 6篇
PFDA-BOOK 9篇
nltk 1篇
2Beaty-py 1篇
文本分类 1篇
文本预处理 2篇
PAT 2篇

最新评论

cpp p55--使用转义字符（mac上无法正常运行）
_qingche: 我来考古了，xcode GUI不支持/b You need to run it in a terminal environment that supports \b escape sequences. The console in Xcode must not understand them.
文本分类的数据预处理流程介绍
CHAOC66: 您好有代码演示吗
*while计算阶乘
hiro22: while i <= n: TypeError: '<=' not supported between instances of 'int' and 'str'[code=python] [/code]
文本分类的数据预处理流程介绍
行动起来xzl: 请问计算q时我举个例子比如计算A的q 我觉得是ln(1+2)/2 = 0.2 我哪错了
PAT (Basic Level 1002-python3)
FTship: 请教： ' '.join 用法解释。。。。知道输出效果，但不是很明白谢谢

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。