自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 矩阵分解,非常灵活

2022-10-25 22:37:37 72 1

原创 幂等矩阵特征值

2022-10-18 12:52:37 201

原创 数据预处理

数据预处理缺失值处理拉格朗日插值法原理:对于平面中的n个点,可以找到一个n-1次多项式,使得此多项式经过n个点。牛顿插值法插值节点增减时,插值多项式也随之变换,在实际计算中较为麻烦,因此提出牛顿插值法。异常值处理处理方法:①删除含有异常值的记录②将异常值视为缺失值③平均值修正④不处理数据变换简单函数变换平方、开方、取对数、差分运算规范化1.最小-最大化规范​ x∗=x−min⁡max−minx^\ast=\frac{x-\min}{max-min}x

2021-12-19 23:40:18 200

原创 商务大数据分析_数据探索

数据探索数据质量分析主要任务:检查原始数据中是否有脏数据。脏数据:缺失值、异常值、不一致的值缺失值分析主要类型①记录的缺失②记录中某个字段信息的缺失产生原因①信息无法获取或获取代价高②信息遗漏③属性值不存在。如:未婚者配偶名字缺失值影响①丢失大量信息②不确定性更加显著,模型规律难以把握③使建模过程陷入混乱,导致不可靠输出分析方法①删除缺失记录②对可能值进行插补③不处理异常值分析任务:检验数据是否有录入错误以及含有不合理数据异常值(离群点)定义:样本中个别值,其数值

2021-12-19 23:36:54 1144

原创 第六章 支持向量机 软间隔与支持向量回归

第六章 支持向量机 软间隔与支持向量回归支持向量机原理从几何角度,对于线性可分数据集,支持向量机就是找距离正负样本都最远的超平面,相比于感知机,其解是唯一的,且不偏不倚,泛化性能更好。模型给定线性可分数据集 ,支持向量机模型希望求得数据集 关于超平面的几何间 隔达到最大的那个超平面,然后套上一个 函数实现分类功能软间隔与支持向量回归...

2021-07-30 00:39:13 218

原创 第五章 神经网络

第五章 神经网络M-P神经元M‑P神经元:接收n个输入,并给各个输入赋予权重计算加权和,然后和自身特有的阈值 进行比较,最后经过激活函数处理得到输出感知机神经网络

2021-07-26 01:08:48 261

原创 第四章 决策树

第四章 决策树算法原理1.逻辑的角度:一堆条件语句(if else)的组合2.几何的角度:根据一定的准则划分特征空间最终目的:产生一颗泛化能力强的决策树,将样本“越分越纯”,体现的是分而治之的算法思想ID3决策树C4.5决策树CART决策树...

2021-07-23 00:12:03 149

原创 第三章 线性模型

第三章 线性回归3.1线性回归一元线性回归参数估计的方法1.最小二乘法基于均方误差最小化进行模型求解的方法称为最小二乘法,即试图找到一条直线,使所有样本到直线的欧氏距离之和最小均方误差、欧式距离最小化:argmin(w,b)=∑i=1m(f(xi)−yi))2argmin_{(w,b)}=\sum_{i=1}^{m}\left ( f(x_{i})-y_{i}) \right )^{2}argmin(w,b)​=i=1∑m​(f(xi​)−yi​))22.极大似然法估计极大似然估计的直

2021-07-18 13:24:14 128

原创 第二章 模型评估与选择

2.1 经验误差与过拟合1.误差2.m个样本样本,a个分类错误错误率:分类错误的样本数占样本总数的比例E=a/mE = a / mE=a/m准确率、精度:1−E1-E1−E我们实际希望得到的是在新样本上模型表现好的学习器。降低经验误差很容易,有些经验误差甚至为0,遗憾的是大多数这种情况都是不好的。过拟合:把训练样本自身特点当做潜在样本(需要被泛化的新样本)具有的一般性质。比较难解决出现原因:学习能力过于强大,把不太一般的特点给学到了欠拟合:对样本的一般性质尚未学好。

2021-07-16 23:41:46 102

原创 第一章 绪论

基础术语**分类:**预测的是离散值**回归:**欲预测的是连续值**有监督学习:**根据训练数据拥有标记信息**无监督学习:**根据训练数据没有有标记信息**泛化能力:**学得模型适用于新样本的能力**独立同分布:**我们获得的每个样本都是独立地从这个分布上采样获得的...

2021-07-13 23:31:11 49

原创 数据结构——二叉树

相关概念树的相关概念1.结点:树中一个独立的单元2.结点的度:结点拥有的子树数3.叶子/终端结点:度=0的结点4.分支结点:度>0的结点(除根结点外,其他分支结点也称为内部结点)5.树的度:树中所有结点的度的最大值6.孩子:结点的子树的根,相应的该结点成为孩子的双亲兄弟:同一个双亲的孩子7.祖先:从根到该结点所经分支的所有结点​ 子孙:以某结点为根的子树的任一结点8.结点层次:从跟开始定义,根为第一层,根的孩子为第二层堂兄弟:同一层的结点互为堂兄弟9.数的深度:树中叶子结点所

2021-07-12 00:30:59 105

原创 数据结构——队列

数据结构——队列相关概念队列实现1.循环队列实现2.链队实现应用案例:模拟银行排队相关概念1.定义:队列是限定仅能在表头进行删除,表尾进行插入的线性表。2.特点:先进先出3.队列类型的实现:链队列、循环队列真上溢:队列真正满时入队假上溢:rear已指向队尾,但队列前端仍有空位置解决假上溢方法:循环队列,利用“模运算”表示循环的含义入队:Q.rear = (Q.rear+1) % MAXQSIZE出队:Q.front = (Q.front+1)% MAXQSIZE5.循环队列队空,

2021-07-02 11:21:40 180

原创 数据结构——栈

数据结构——栈相关知识点栈的实现1.顺序栈实现代码2.链栈实现代码栈的应用例子数制转换括号匹配行编辑表达式求值相关知识点用途:1.可直接用于描述问题2.用于算法的实现中栈、队列、串的特点1.从数据元素间的逻辑关系看是线性表2.从操作方式与种类看不同于线性表:栈与队列是操作受限的线性表;串是元素受限的线性表栈的逻辑结构栈中元素除了具有线性关系外,还具有先进后出的特点(根据这二点决定是否使用栈)栈的特点1.栈属于加了限制条件的线性结构;2.栈是后进先出的线性表;3.进栈和出栈只能

2021-07-02 10:19:37 565

原创 数据结构——线性表

数据结构——线性表相关知识点线性表的实现-顺序映象线性表的实现--链式映象应用案例:一元多项式表示及相加相关知识点1.线性表的定义:一个线性表是n个元素的有限序列。2.线性表是一种最基本的数据结构,栈、队、串等就是线性表的特例。3.相关概念数据项:一个数据元素由若干数据项组成记录:数据元素可以叫作一条记录文件:大量的记录的线性表叫文件线性表的实现-顺序映象4.1线性表的顺序存储结构是一种随机存取的存储结构。(只要确定存储线性表的起始位置)4.2代码#include<iostre

2021-07-01 10:45:39 68

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除