自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 jieba分词并写入到TXT文本中

参考程序:import jiebaimport codecswith open('reviw.txt', 'r') as f:    for line in f:        seg = jieba.cut(line.strip(), cut_all = False)        s= '/'.join(seg)        m=list(s)       

2016-09-02 16:53:53 11611 5

原创 中文文本处理之jieba分词笔记(二)

一、分词之过滤停用词设置一个停用词表,每一行是一个停用词将分词结果与停用词表进行匹配,如果停用词表中包含分词结果,则删去。参考程序如下:import jiebalst=[]with open('stopwordsforcut.txt','r')as f:    #建立停用词表stopwordsforcut。    for line in f:        lst.ap

2016-09-01 15:47:46 3789

原创 中文文本挖掘课程笔记之jieba分词(1)

自然语言处理小白一枚,刚刚开始接触这一领域,记录下自己的课程笔记,便于以后查阅。积少成多,加油~        学习了罗晨老师的中文文本挖掘课程对其中的jieba分词整理一下下。一、jieba的安装与打开        jieba是Python的一个分词库。首先要进行安装,键盘Windows+R --->输入cmd-->pip install jieba即可。       安装An

2016-08-31 21:30:29 11166

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除