自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 基本运算和常用函数部分

R语言基本运算和常用函数部分。c(1:4) / c(2:5)c(1:6) / c(2:5) # 循环扩展4 ^ 3 # 幂运算 底数^指数exp(1) # 自然常数为底的幂运算log(x = 25, base = 5) # 5为底25的对数sqrt(4) # 开平方abs(-5.6) # 绝对值sign(-5.6) # 符号函数round(3.45679, 2) # 保留指定位小数signif(3.245, 2) # 保留指定位有效数字

2022-10-14 16:14:11 247 3

原创 R语言数据类型、向量、矩阵、列表、数据框

R语言数据类型、向量、矩阵、列表、数据框。

2022-10-14 11:02:52 632

原创 one-hot编码

one-hot编码,又称独热编码、一位有效编码。one hot在特征提取上属于词袋模型(bag of words)优缺点分析优点:- 一是解决了分类器不好处理离散数据的问题- 二是在一定程度上也起到了扩充特征的作用(上面样本特征数从3扩展到了9)缺点:- 它是一个词袋模型,不考虑词与词之间的顺序- 它假设词与词相互独立(在大多数情况下,词与词是相互影响的)- 它得到的特征是离散稀疏的

2022-08-21 15:45:56 24887 3

原创 前向,逆向,双向最大匹配算法原理及实现

正向最大匹配算法的基本思想为:假定分词词典中的最长词有个汉字字符,则用被处理文档的当前字串中的前个字作为匹配字段,查找字典。若字典中存在这样的一个字词,则匹配成功,匹配字段被作为一个词切分出来。如果词典中找不到这样的一个1字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理。如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配,然后取下一个i字逆向最大匹配的基本原理与正向最大匹配法相同,不同的是分词切分的方字串进行匹配处理,直到文档被扫描完为止。

2022-08-16 16:30:57 2349 1

原创 如何配置conda环境及conda常用命令

代码来自清华镜像源,保存退出即可即可添加 Anaconda Python 免费仓库。的仓库地址在国外,当你下载工具包时,下载速度会很慢,所以改到国内来。在anaconda命令行界面下执行命令代码。生成修改文件,执行命令后再主目录下会生成。文件,删除文件内的全部内容,添加下列代码。清楚索引缓存,保证用的是镜像站提供的索引。Windows 用户无法直接创建名为。环境及conda常用命令。生成该文件之后再修改。创建虚拟环境和下载包测试。conda 常用命令。.........

2022-08-06 10:47:09 2465

原创 R语言的矩阵、列表、数据框

R语言的矩阵、列表、数据框 。矩阵是一个按照长方阵列排列的复数或实数集合。列表顾名思义就是用来存储很多内容的一个集合,在其他编程语言中列表一般和数组是等同的,但是在R语言中,列表却是R中最复杂的一种数据结构,也是非常重要的一种数据结构。数据框是一种表格式的数据结构。数据框旨在模拟数据集,与其他统计软件例如SAS或者SPSS中的数据集的概念一致。矩阵与数据框数据框形状上很像矩阵;数据框是比较规则的列表矩阵必须为同一数据类型数据框每一列必须同一类型,每一行可以不同。......

2022-06-06 14:58:37 3447

原创 R的向量类型和相关函数

向量,vector,是R中最重要的一个概念,它是构成其他数据结构的基础。R中的向量概念与数学中向量是不同的,类似于数学上的集合的概念,由一个或多个元素所构成。向量其实是用于存储数值型、字符型或逻辑型数据的一维数组。用函数c来创建向量。c代表concatenate连接,也可以理解为收集collect,或者合并combine......

2022-06-05 20:42:16 1330

原创 R的数据集及相关函数

R语言内置数据集 euro #欧元汇率,长度为11,每个元素都有命名landmasses #48个陆地的面积,每个都有命名precip #长度为70的命名向量rivers #北美141条河流长度state.abb #美国50个州的双字母缩写state.area #美国50个州的面积state.name #美国50个州的全称state.division #美国50个州的分类,9个类别state.region #美国50个州的地理分类euro.cross #11种货币的汇率矩阵...

2022-06-05 11:31:05 866

原创 R语言的帮助文档以及相关函数

R语言在安装的时候会同时安装help帮助文档,如果有图形化窗口,可以在菜单栏中点击 Help→ R Help 也可以在控制台中写命令help.start()可以打开并查阅相关的帮助文档, 在Rstudio中则使用帮助窗口打开。在Reference有两个链接比较常用。package可以查看R安装了哪些包,以及每个包对应的帮助文档信息。help(函数名称) 或者 ?函数名称 列出详细的函数帮助信息,比如包括描述、使用、参数、细节等args(函数名称) 快速了解函数的参数而不想查阅详细文档exa

2022-06-04 21:04:28 3510

原创 R包的安装

R包的安装R语言的特点就是有众多的第三方扩展包,扩展包涉及到各行各业的数据分析内容。包是R函数、数据、预编译代码以一种定义完善的格式组成的集合,包括R程序,运行该程序的其他语言(例如C语言),解释这个程序功能、方法的帮助文档,例子、测试数据等。R自带了一系列默认包,包括base、datasets、utils、graDevices、graphics、stats以及methods。这些包提供了很多的默认函数和数据集,我们可以无需下载直接使用。但当我们需要其他的操作,用到别的包时,需要通过下载来进行安装啦

2022-05-31 11:55:05 10809 1

原创 R语言和Rstudio的介绍和安装

R语言和Rstudio的介绍和安装R语言的来源:R是S语言的一种实现。S语言是由AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS.S-PLUS是一个商业软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。后来Auckland;大学的RobertGentleman和Ross Ihaka及其他志愿人员开发了一个R系统。R的使用与S-PLUS有很多类似之处,两个软件有一定的兼容性。R的作用:​ R 是一种用于统计计算和

2022-05-14 09:21:02 7714

原创 决策树的预剪枝

决策树的预剪枝优秀的决策树:优秀的决策树不仅对数据具有良好的拟合效果,而且对未知的数据具有良好的泛化能力,优秀的决策树具有以下优点:深度小叶节点少深度小并且叶节点少拟合分为:过拟合和欠拟合过拟合:训练误差低,测试误差大,即对已知训练数据拟合很好,但是未知数据的预测能力不好,训练出来的模型结构一般较复杂。欠拟合:训练误差高,测试误差低,即对已知的训练数据的拟合误差要大于未知数据的,训练出来的模型过于简单。模型的复杂度一般体现在:深度大小和也节点数量,深度小且叶节点少则模型简单,深度

2022-05-13 16:33:43 4237 1

原创 决策树的生成—ID3算法

决策树的生成—ID3算法算法由来:决策树算法最开始是由Hunt Earl B提出的CLS(Concept Learning System),但是没有给出采用什么方法选择最优特征,后面罗斯昆(J. Ross Quinlan)提出ID3算法,使用 [信息增益] 确定最优特征,之后罗斯昆又对ID3算法进行了优化改进,得到 C4.5算法,并用 信息增益比来确定最优特征。两种算法本质是差不多的,只是确定最优特征的方法不同,ID3算法偏向于选择数量较多的某一特征,C4.5算法偏向于某一特征单位数量的选择。ID3

2022-05-12 15:27:11 2354

原创 决策树之用信息增益选择最优特征

决策树之用信息增益选择最优特征熵 ​ 熵的定义: 熵(shāng),热力学中表征物质状态的参量之一,用符号S表示,其物理意义是体系混乱程度的度量。在决策树中,信息增益是由熵构建而成,表示的是[随机变量的不确定性],不确定性越大,代表着熵越大。随机变量的取值等概率分布时,相应的熵最大,换句话说,特征的所有取值概率相同时,包含的信息是最多的,就是不确定性最大的情况。熵和随机变量的分布相关,所以写成:H(p)=−∑i=1npilog⁡piH(p)=-\sum_{i=1}^{n} p_{i

2022-05-12 10:49:41 2670

原创 决策树一CART算法(第四部分)

决策树一CART算法(第四部分)CART树的剪枝:算法步骤输入:CART算法生成的决策树。输出:最优决策树T设K=0,T=T0K=0,T=T_0K=0,T=T0​ ,从完整的决策树出发​ k代表迭代次数,先从完整的树开始,即k=0开始。设α=+∞\alpha=+\inftyα=+∞,后面会比较大小,损失函数小则可以剪枝,从大到小比较自下而上地对各内部结点t计其C(Tt),∣Tt∣C(T_t),|T_t|C(Tt​),∣Tt​∣以及g(t)=C(t)−C(Tt)∣Tt∣−1,α

2022-05-11 10:56:33 1919

原创 决策树一一CART算法(第三部分)

决策树一一CART算法(第三部分)CART-回归树模型​ 如果输出变量是 连续 的,对应的就是 回归 问题,对于决策树而言,输出的信息一定就是叶子结点,所以需要将连续变量按照一定的要求划分。回归树模型​ 假设将输入空间划分成 M个单元, ,R1,R2,....,RMR_1,R_2,....,R_MR1​,R2​,....,RM​,并在每个单元 上有一个固定的输出值 ,回归树模型可以表示为:f(x)=∑m=1McmI(x∈Rm)f(x)=\sum_{m=1}^{M} c_{m} I\left(

2022-05-10 17:51:25 1006

原创 决策树一CART算法(第二部分)

CART分类树算法CART分类树算法解读输入:数据集 D,特征集 A,停止条件阈值ϵ\epsilonϵ输出:CART分类决策树步骤:从根节点出发,进行操作,构建操作二叉树计算现有特征下对数据集 基尼指数,选择最优特征。——在特征Ag下,对其可能取的每个值g,根据样本点对Ag=g的测试为“是”我“否”, 将D分制成D1和D2两部分,计算Ag=g时的基尼指数。——选择基尼指数最小的那个值作为该特征下的最优切分点。——计算每个特征下的最优切分点,并比较在最优切分下的每个特征的基尼

2022-05-09 21:12:23 1137

原创 决策树一CART算法(第一部分)

决策树一CART算法(第一部分)CART算法简介CART算法是机器学习十大算法之一,这个方法的创始人Leo BreimanCART算法展开就是Classification and Regression Tree,对应的就是分类与回归树,用树 形结构来解决分类和回归的问题。如果输出变量是离散的,对应的就是分类问题。如果输出变量是连续的,对应的就是回归问题。CART算法分为三步走:选择特征、生成决策树、剪枝在CART算法中,树形结构是二叉树模型,通常左边为「是 」,右 边为

2022-05-09 15:57:59 1952

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除