1025佳and慧-CSDN博客

原创数据挖掘（python实现）—数据预处理

一.数据预处理的基本思想和数据规范化数据预处理的原因：数据在搜集时由于各种原因可能存在缺失、错误、不一致等问题用于描述对象的数据有可能不能很好地反映潜在的模式描述对象的属性的数量可能有很多，有些属性是无用的或者冗余的数据规范化：数据规范化又称标准化（standardization），通过将属性的取值范围进行统一，避免不同的属性在数据分析的过程中具有不平等的地位。常用方法： ...

2021-10-11 20:01:03 2215

原创数据挖掘（python实现）—认识数据

1.数据对象与属性类型数据集合的类型：记录、图或网络、有序的列表、空间、图像和多媒体等。数据集由数据对象构成，一个数据对象代表一个实体。又称为样本，事例，数据点，对象，元组等。数据对象由属性来描述。属性（也称作维度，特征，变量）：一个数据字段表示一个数据对象的某个特征。属性类型：标称属性——与名称有关类别、状态等 Hair_color={auburn,black,blond,brown,...

2021-10-06 23:48:03 1649 1

jieba简介1.jieba的特点分词是自然语言处理中最基础的一个步骤。而 Jieba 分词是目前中文分词中一个比较好的工具。它包含有以下特性：社区活跃。Jieba 在 Github 上已经有 17670 的 star 数目。社区活跃度高，代表着该项目会持续更新，实际生产实践中遇到的问题能够在社区反馈并得到解决，适合长期使用；功能丰富。Jieba 其实并不是只有分词这一个功能，其是一个开源框架，提供了很多在分词之上的算法，如关键词提取、词性标注等；提供多种编程语言实现

2021-10-01 15:47:30 1697

原创自然语言处理—规则分词法

什么是规则分词基于规则的分词是一种机械分词方法，主要是通过维护词典，在切分语句时，将语句的每个字符串与词表中的词进行逐一匹配，找到则切分，否则不予切分。按照匹配切分的方式，主要有正向最大匹配法、逆向最大匹配法以及双向最大匹配法三种方法。正向最大匹配法（MM法）1.算法描述如图所示，正向最大匹配法的具体步骤为：从左向右取待切分汉语句的m个字符作为匹配字段，m是机器词典中最长词条的字符数；查找机器词典并进行匹配。匹配成功则将匹配字段作为一个词切分出来，匹配失败则将匹配字段的最后一个字

2021-10-01 09:55:42 2023 2

原创自然语言处理—基于规则的词法分析—基于正则表达式的词性分析方法

（一）邮箱地址和网址提取构建正则表达式re模块常见相关函数re.search()在一个字符串中搜索正则表达式的第一个位置，返回match对象re.match()从一个字符串的开始位置起匹配正则表达式，返回match对象re.findall()搜索字符串，以列表类型返回全部能匹配的子串re.split()将一个字符串按照正则表达式匹配结果进行分割，返回列表类型re.finditer()搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象re.sub()在一个

2021-09-30 17:07:54 2137

原创自然语言处理—初始自然语言处理技术—自然语言处理的前置技术

（一）正则表达式在NLP中的应用正则表达式简介正则表达式是一种定义了搜索模式的特征序列，主要是用于字符串的模式匹配，或是字符的匹配。

2021-09-30 14:53:54 2431

原创自然语言处理—初始自然语言处理技术—走进自然语言处理

（一）自然语言处理概念及发展什么是自然语言处理？自然语言处理（NLP）是计算机科学领域以及人工智能领域的一个重要的研究方向，它研究用计算机来处理、理解以及运用人类语言（如中文、英文等），达到人与计算机之间进行有效通讯。在一般情况下，用户可能不熟悉机器语言，所以自然语言处理技术可以帮助这样的用户使用自然语言和机器交流。从建模的角度看，为了方便计算机处理，自然语言可以被定义为一组规则或符号的集合，我们组合集合中的符号来传递各种信息。自然语言处理研究表示语言能力、语言应用的模型，通过建立计算机框

2021-09-27 17:57:55 2303 1

qq_49410604的博客