躺平yyds-CSDN博客

原创基本运算和常用函数部分

R语言基本运算和常用函数部分。c(1:4) / c(2:5)c(1:6) / c(2:5) # 循环扩展4 ^ 3 # 幂运算底数^指数exp(1) # 自然常数为底的幂运算log(x = 25, base = 5) # 5为底25的对数sqrt(4) # 开平方abs(-5.6) # 绝对值sign(-5.6) # 符号函数round(3.45679, 2) # 保留指定位小数signif(3.245, 2) # 保留指定位有效数字

2022-10-14 16:14:11 247 3

原创 R语言数据类型、向量、矩阵、列表、数据框

R语言数据类型、向量、矩阵、列表、数据框。

2022-10-14 11:02:52 632

原创 one-hot编码

one-hot编码，又称独热编码、一位有效编码。one hot在特征提取上属于词袋模型(bag of words)优缺点分析优点：- 一是解决了分类器不好处理离散数据的问题- 二是在一定程度上也起到了扩充特征的作用(上面样本特征数从3扩展到了9)缺点：- 它是一个词袋模型，不考虑词与词之间的顺序- 它假设词与词相互独立(在大多数情况下，词与词是相互影响的)- 它得到的特征是离散稀疏的

2022-08-21 15:45:56 24887 3

原创前向，逆向，双向最大匹配算法原理及实现

正向最大匹配算法的基本思想为：假定分词词典中的最长词有个汉字字符，则用被处理文档的当前字串中的前个字作为匹配字段，查找字典。若字典中存在这样的一个字词，则匹配成功，匹配字段被作为一个词切分出来。如果词典中找不到这样的一个1字词，则匹配失败，将匹配字段中的最后一个字去掉，对剩下的字串重新进行匹配处理。如此进行下去，直到匹配成功，即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配，然后取下一个i字逆向最大匹配的基本原理与正向最大匹配法相同，不同的是分词切分的方字串进行匹配处理，直到文档被扫描完为止。

2022-08-16 16:30:57 2349 1

原创如何配置conda环境及conda常用命令

代码来自清华镜像源，保存退出即可即可添加 Anaconda Python 免费仓库。的仓库地址在国外，当你下载工具包时，下载速度会很慢，所以改到国内来。在anaconda命令行界面下执行命令代码。生成修改文件，执行命令后再主目录下会生成。文件，删除文件内的全部内容，添加下列代码。清楚索引缓存，保证用的是镜像站提供的索引。Windows 用户无法直接创建名为。环境及conda常用命令。生成该文件之后再修改。创建虚拟环境和下载包测试。conda 常用命令。.........

2022-08-06 10:47:09 2465

原创 R语言的矩阵、列表、数据框

R语言的矩阵、列表、数据框。矩阵是一个按照长方阵列排列的复数或实数集合。列表顾名思义就是用来存储很多内容的一个集合，在其他编程语言中列表一般和数组是等同的，但是在R语言中，列表却是R中最复杂的一种数据结构，也是非常重要的一种数据结构。数据框是一种表格式的数据结构。数据框旨在模拟数据集，与其他统计软件例如SAS或者SPSS中的数据集的概念一致。矩阵与数据框数据框形状上很像矩阵；数据框是比较规则的列表矩阵必须为同一数据类型数据框每一列必须同一类型，每一行可以不同。......

2022-06-06 14:58:37 3447

原创 R的向量类型和相关函数

向量，vector,是R中最重要的一个概念，它是构成其他数据结构的基础。R中的向量概念与数学中向量是不同的，类似于数学上的集合的概念，由一个或多个元素所构成。向量其实是用于存储数值型、字符型或逻辑型数据的一维数组。用函数c来创建向量。c代表concatenate连接，也可以理解为收集collect,或者合并combine......

2022-06-05 20:42:16 1330

原创 R的数据集及相关函数

R语言内置数据集 euro #欧元汇率，长度为11，每个元素都有命名landmasses #48个陆地的面积，每个都有命名precip #长度为70的命名向量rivers #北美141条河流长度state.abb #美国50个州的双字母缩写state.area #美国50个州的面积state.name #美国50个州的全称state.division #美国50个州的分类，9个类别state.region #美国50个州的地理分类euro.cross #11种货币的汇率矩阵...

2022-06-05 11:31:05 866

原创 R语言的帮助文档以及相关函数

R语言在安装的时候会同时安装help帮助文档，如果有图形化窗口，可以在菜单栏中点击 Help→ R Help 也可以在控制台中写命令help.start（）可以打开并查阅相关的帮助文档，在Rstudio中则使用帮助窗口打开。在Reference有两个链接比较常用。package可以查看R安装了哪些包，以及每个包对应的帮助文档信息。help(函数名称) 或者 ?函数名称列出详细的函数帮助信息，比如包括描述、使用、参数、细节等args(函数名称) 快速了解函数的参数而不想查阅详细文档exa

2022-06-04 21:04:28 3510

原创 R包的安装

R包的安装R语言的特点就是有众多的第三方扩展包，扩展包涉及到各行各业的数据分析内容。包是R函数、数据、预编译代码以一种定义完善的格式组成的集合，包括R程序，运行该程序的其他语言(例如C语言)，解释这个程序功能、方法的帮助文档，例子、测试数据等。R自带了一系列默认包，包括base、datasets、utils、graDevices、graphics、stats以及methods。这些包提供了很多的默认函数和数据集，我们可以无需下载直接使用。但当我们需要其他的操作，用到别的包时，需要通过下载来进行安装啦

2022-05-31 11:55:05 10809 1

原创 R语言和Rstudio的介绍和安装

R语言和Rstudio的介绍和安装R语言的来源：R是S语言的一种实现。S语言是由AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS.S-PLUS是一个商业软件，它基于S语言，并由MathSoft公司的统计科学部进一步完善。后来Auckland;大学的RobertGentleman和Ross Ihaka及其他志愿人员开发了一个R系统。R的使用与S-PLUS有很多类似之处，两个软件有一定的兼容性。R的作用： R 是一种用于统计计算和

2022-05-14 09:21:02 7714

原创决策树的预剪枝

决策树的预剪枝优秀的决策树：优秀的决策树不仅对数据具有良好的拟合效果，而且对未知的数据具有良好的泛化能力，优秀的决策树具有以下优点：深度小叶节点少深度小并且叶节点少拟合分为：过拟合和欠拟合过拟合：训练误差低，测试误差大，即对已知训练数据拟合很好，但是未知数据的预测能力不好，训练出来的模型结构一般较复杂。欠拟合：训练误差高，测试误差低，即对已知的训练数据的拟合误差要大于未知数据的，训练出来的模型过于简单。模型的复杂度一般体现在：深度大小和也节点数量，深度小且叶节点少则模型简单，深度

2022-05-13 16:33:43 4237 1

原创决策树的生成—ID3算法

决策树的生成—ID3算法算法由来：决策树算法最开始是由Hunt Earl B提出的CLS(Concept Learning System)，但是没有给出采用什么方法选择最优特征，后面罗斯昆（J. Ross Quinlan）提出ID3算法，使用 [信息增益] 确定最优特征，之后罗斯昆又对ID3算法进行了优化改进，得到 C4.5算法，并用信息增益比来确定最优特征。两种算法本质是差不多的，只是确定最优特征的方法不同，ID3算法偏向于选择数量较多的某一特征，C4.5算法偏向于某一特征单位数量的选择。ID3

2022-05-12 15:27:11 2354

躺平yyds的博客