初识jieba(py3)

原创 2016年08月29日 23:24:22
data=open('/Users/momo/Desktop/小论文/模拟/红楼梦/红楼梦.txt')  

#for line in data:
   # print(line)
type(data)
fout = open('/Users/momo/Desktop/小论文/模拟/红楼梦/output.txt', 'w')
import jieba as jb
seg_list = jb.cut('你是谁', cut_all=True)
print("Full Mode:", "/ ".join(seg_list))  # 全模式
Full Mode: 你/ 是/ 谁
for eachLine in data: 
    wordList = list(jb.cut(eachLine))#用结巴分词,对每行内容进行分词
    outStr = '' 
    for word in wordList:  
            outStr += word  
            outStr += '/ '
    fout.write(outStr.strip()+'\n') #将分词好的结果写入到输出文件
data.close()  
fout.close() 

待学习:分词流程处理,分词字典应用

版权声明:本文为博主原创文章,未经博主允许不得转载。

python3 - jieba:去停词,词性判断,计算词频

import jieba import jieba.posseg as pseg from nlp.db import MongoClient from nlp.config import * c...
  • PeersLee
  • PeersLee
  • 2017年05月23日 20:20
  • 1390

初识人工智能

人工智能,之所以冠以“”人工“,最主要是因为其模仿人类的思维过程所产生的。而“”智能“”,怎样才算智能呢?前一阵子比较火的智能家居,最主要的形式是通过各种手机APP 或者终端远程控制各种家电开关,这种...
  • oangeli
  • oangeli
  • 2017年01月18日 23:35
  • 261

Python中文分词组件jieba

jieba "结巴"中文分词:做最好的Python中文分词组件 "Jieba"  Feature 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析;全...
  • xyw_Eliot
  • xyw_Eliot
  • 2014年12月12日 14:50
  • 2338

使用python 的结巴(jieba)库进行中文分词

jieba “结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: buil...
  • loster_Li
  • loster_Li
  • 2016年10月26日 23:01
  • 1106

Python 文本挖掘:jieba中文分词和词性标注

最近NLP新词发现及情感倾向性分类
  • u010454729
  • u010454729
  • 2014年10月26日 13:26
  • 14616

Java简单使用jieba分词

1.下载jieba分词包:   下载地址:http://download.csdn.net/detail/wbcg111/9685021 2.配置,使用分词包 com.huaban.analysi...
  • wbcg111
  • wbcg111
  • 2016年11月16日 20:42
  • 7402

jieba中文分词源码分析(一)

一、缘由接触自然语言处理(NLP)有段时间,理论知识有些了解,挺想动手写些东西,想想开源界关于NLP的东西肯定不少,其中分词是NLP的基础,遂在网上找了些资源,其中结巴分词是国内程序员用python开...
  • gfsfg8545
  • gfsfg8545
  • 2015年09月03日 16:11
  • 7514

JAVA学习第一课(初识JAVA)

PS:退ACM集训队了,自己也疯玩了两天,后天就开学了,就正式大二了,该收收心好好学习啦                                                        ...
  • u013497151
  • u013497151
  • 2014年08月30日 14:51
  • 2312

python中的jieba分词使用手册

jieba “结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: bu...
  • Alis_xt
  • Alis_xt
  • 2016年12月08日 18:15
  • 10618

Windows下elasticsearch安装jieba分词插件

1. 到github下载插件 https://github.com/huaban/elasticsearch-analysis-jieba 2.将下载得到的插件,如elasticsearch-anal...
  • mighty13
  • mighty13
  • 2017年06月30日 20:06
  • 11749
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:初识jieba(py3)
举报原因:
原因补充:

(最多只允许输入30个字)