初识jieba(py3)

原创 2016年08月29日 23:24:22
data=open('/Users/momo/Desktop/小论文/模拟/红楼梦/红楼梦.txt')  

#for line in data:
   # print(line)
type(data)
fout = open('/Users/momo/Desktop/小论文/模拟/红楼梦/output.txt', 'w')
import jieba as jb
seg_list = jb.cut('你是谁', cut_all=True)
print("Full Mode:", "/ ".join(seg_list))  # 全模式
Full Mode: 你/ 是/ 谁
for eachLine in data: 
    wordList = list(jb.cut(eachLine))#用结巴分词,对每行内容进行分词
    outStr = '' 
    for word in wordList:  
            outStr += word  
            outStr += '/ '
    fout.write(outStr.strip()+'\n') #将分词好的结果写入到输出文件
data.close()  
fout.close() 

待学习:分词流程处理,分词字典应用

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

[Python3] 初识py, 一个简单练手的小玩意. 快递查询

有图有真相脚本代码最近刚入门py, 准备写点小玩意练练手. 于是决定拿快递100开刀. 因为它的api很简单.# 快递100 API # 作者: 剑齿虎 # 邮箱: yuxiaobo64@...

初识LoadRunner3

  • 2011年12月09日 22:56
  • 923KB
  • 下载

jieba 分词源代码研读(3)

前面两篇文章说到了根据语料库和频度打分机制生成一个初步的分词结果。但是我们的分词结果仅仅用到了语料库已有的词语和频度,还没有用上词性,所以对于语料库中没有出现的词语判断能力等于0,比如下面这句: '乔...
  • rav009
  • rav009
  • 2013年10月08日 16:20
  • 7373

Python-jieba3k

  • 2016年03月08日 16:58
  • 10.2MB
  • 下载

Python3 jieba分词

分词对于NLP(自然语言处理)来说,分词是一步重要的工作,市面上也有各种分词库,11款开放中文分词系统比较。 1.基于词典:基于字典、词库匹配的分词方法;(字符串匹配、机械分词法) 2.基于...

python3 - jieba:去停词,词性判断,计算词频

import jieba import jieba.posseg as pseg from nlp.db import MongoClient from nlp.config import * c...

初识.net界面程序(3)——字符提取和整数整除练习

用控制台应用程序实现下列功能:从键盘接受一个大于100的整数,然后分别输出该整数的每一位的值,并输出这些位相加的结果。要求分别用字符提取法和整数整除实现。 字符提取法:先将整数转化为字符串,然后依...

赢在职场-WEB全栈开发-1-1初识前段、1-2浅析、1-3CSS的位置

什么是语言?     语言是交流的工具。人与人交流,使用如中文、英文之类的语言。前段程序猿与浏览器交流则使用浏览器前端语言之类的计算机语言。 浏览器前端语言大致有:html(Hyper Te...

初识3DES

3DES是三重数据加密算法块密码的通称,它相当于是对每个数据块应用三次DES加密算法,3DES是通过增加DES的密钥长度来避免类似的攻击,而不是设计一种全新的块密码算法。 它使用3条56位的密钥对数据...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:初识jieba(py3)
举报原因:
原因补充:

(最多只允许输入30个字)