自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 结巴分词(jieba)词性标注表

 当我们进行关键词的选择时,也要考虑词语的词性,关键词以名词或者名词性词组居多,而jieba为自然语言语言中常用工具包,具有对分词的词性进行标注的功能,词性类别如下(重要的词性符号已标记):符号词性Ag形语素a形容词ad副形词an名形词b区别词c连词dg副语素d副词e叹词f方位词g语素h...

2020-03-31 21:04:40 4860

原创 中文文本处理总结(读取文本、文本预处理、分词、去除停用词)

 针对前面学习的 Python读取文本内容、中文文本预处理、利用jieba对中文进行分词、中文分词后去除停用词、调整jieba分词结果,我们已经掌握了中文文本处理的各个步骤的方法,现在对以上学习的知识做个总结,用一个例子把它们汇总在一起,完成对中文的文本处理:...

2020-03-30 21:28:15 15565 7

原创 调整jieba分词结果

文章目录分词调整分词结果1、添加自定义词典2、动态调整词典3、调整词频分词  通过前面文章 利用jieba对中文进行分词 的介绍,我们知道jieba有三种分词模式:精确模式(jieba.cut(txt))、全模式( jieba.cut(txt,cut_all = True) )、搜索引擎模式( jieba.cut_for_search(txt) )。  其中,jieba.cut 以及 jie...

2020-03-27 10:24:23 3420

原创 中文分词后去除停用词

 中文分词后去除停用词 当我们利用jieba进行中文分词时,主要是句子中出现的词语都会被划分,而有些词语是没有实际意思的,对于后续的关键词提取就会加大工作量,并且可能提取的关键词是无效的。所以在分词处理以后,我们便会引入停用词去优化分词的结果。 对于停用词,我们可以自己手动添加到一个txt文件中,然后在需要时导入文件,也可以利用已经整理好的停用词表,这样就会方便很多。当然,在已有的停用词表基础...

2020-03-26 11:36:49 17928 2

原创 利用jieba对中文进行分词

1、jieba库基本介绍(1)、jieba库概述jieba是优秀的中文分词第三方库•- 中文文本需要通过分词获得单个的词语•- jieba是优秀的中文分词第三方库,需要额外安装•- jieba库提供三种分词模式,最简单只需掌握一个函数(2)、jieba分词的原理Jieba分词依靠中文词库利用一个中文词库,确定汉字之间的关联概率汉字间概率大的组成词组,形成分词结果除了...

2020-03-24 22:18:18 23036

原创 中文文本预处理

 在进行文本分析时,我们一大半的时间都会花在文本预处理上,而中文和英文的预处理流程稍有不同,本文就中文文本的预处理做一个总结。文章目录1、文本数据准备2、去除指定无用的符号3、让文本只保留汉字4、文本中的表情符号去除5、繁体中文与简体中文转换1、文本数据准备 使用已经有的语料库,按照Python读取文本内容的方法读取文本文件内容。此处为了一步步演示过程,所以先使用句子,最后再整合。2、去除...

2020-03-20 17:18:11 4880 2

原创 Python读取文本内容

文章目录综述1、打开文件2、读取内容3、关闭文件 Python读取文件时进行文本处理的前提,在进行读取文件之前,我们先创建一个文本文件作为源文件,例子中文件名为exercise1.txt,文件内容如下:综述 在Python中,读文件主要分为三个步骤:打开文件、读取内容、关闭文件。一般形式如下:try: file = open('/path/to/file', 'r') # ...

2020-03-19 20:29:25 17180

原创 Anaconda3安装jieba库和NLTK库

 当我们进行文本处理时,常常需要对文本进行分词处理,但是中文与英文的处理方式确实不一样的:英文主要利用空格进行单词或者句子划分,所以使用的是NLTK分词方法;而中文比英文复杂,需要进行预处理等操作,使用的是jieba分词方法。文章目录1、NLTK库安装2、jieba库安装1、NLTK库安装方法一: 打开Anaconda目录下的Spyder,输入以下代码直接进行下载:import nltk...

2020-03-11 17:41:57 6512

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除