2020年03月_SK-Berry

原创结巴分词（jieba）词性标注表

当我们进行关键词的选择时，也要考虑词语的词性，关键词以名词或者名词性词组居多，而jieba为自然语言语言中常用工具包，具有对分词的词性进行标注的功能，词性类别如下（重要的词性符号已标记）：符号词性Ag形语素a形容词ad副形词an名形词b区别词c连词dg副语素d副词e叹词f方位词g语素h...

2020-03-31 21:04:40 4860

原创中文文本处理总结（读取文本、文本预处理、分词、去除停用词）

针对前面学习的 Python读取文本内容、中文文本预处理、利用jieba对中文进行分词、中文分词后去除停用词、调整jieba分词结果，我们已经掌握了中文文本处理的各个步骤的方法，现在对以上学习的知识做个总结，用一个例子把它们汇总在一起，完成对中文的文本处理：...

2020-03-30 21:28:15 15565 7

原创调整jieba分词结果

文章目录分词调整分词结果1、添加自定义词典2、动态调整词典3、调整词频分词通过前面文章利用jieba对中文进行分词的介绍，我们知道jieba有三种分词模式：精确模式（jieba.cut(txt)）、全模式( jieba.cut(txt,cut_all = True) )、搜索引擎模式( jieba.cut_for_search(txt) )。其中，jieba.cut 以及 jie...

2020-03-27 10:24:23 3420

原创中文分词后去除停用词

中文分词后去除停用词当我们利用jieba进行中文分词时，主要是句子中出现的词语都会被划分，而有些词语是没有实际意思的，对于后续的关键词提取就会加大工作量，并且可能提取的关键词是无效的。所以在分词处理以后，我们便会引入停用词去优化分词的结果。对于停用词，我们可以自己手动添加到一个txt文件中，然后在需要时导入文件，也可以利用已经整理好的停用词表，这样就会方便很多。当然，在已有的停用词表基础...

2020-03-26 11:36:49 17928 2

原创利用jieba对中文进行分词

1、jieba库基本介绍(1)、jieba库概述jieba是优秀的中文分词第三方库•- 中文文本需要通过分词获得单个的词语•- jieba是优秀的中文分词第三方库，需要额外安装•- jieba库提供三种分词模式，最简单只需掌握一个函数(2)、jieba分词的原理Jieba分词依靠中文词库利用一个中文词库，确定汉字之间的关联概率汉字间概率大的组成词组，形成分词结果除了...

2020-03-24 22:18:18 23036

原创中文文本预处理

在进行文本分析时，我们一大半的时间都会花在文本预处理上，而中文和英文的预处理流程稍有不同，本文就中文文本的预处理做一个总结。文章目录1、文本数据准备2、去除指定无用的符号3、让文本只保留汉字4、文本中的表情符号去除5、繁体中文与简体中文转换1、文本数据准备使用已经有的语料库，按照Python读取文本内容的方法读取文本文件内容。此处为了一步步演示过程，所以先使用句子，最后再整合。2、去除...

2020-03-20 17:18:11 4880 2

原创 Python读取文本内容

文章目录综述1、打开文件2、读取内容3、关闭文件 Python读取文件时进行文本处理的前提，在进行读取文件之前，我们先创建一个文本文件作为源文件，例子中文件名为exercise1.txt，文件内容如下：综述在Python中，读文件主要分为三个步骤：打开文件、读取内容、关闭文件。一般形式如下：try: file = open('/path/to/file', 'r') # ...

2020-03-19 20:29:25 17180

原创 Anaconda3安装jieba库和NLTK库

当我们进行文本处理时，常常需要对文本进行分词处理，但是中文与英文的处理方式确实不一样的：英文主要利用空格进行单词或者句子划分，所以使用的是NLTK分词方法；而中文比英文复杂，需要进行预处理等操作，使用的是jieba分词方法。文章目录1、NLTK库安装2、jieba库安装1、NLTK库安装方法一：打开Anaconda目录下的Spyder，输入以下代码直接进行下载：import nltk...

2020-03-11 17:41:57 6512

sk_berry的博客