机器学习 学习笔记
文章平均质量分 67
corina_qin
这个作者很懒,什么都没留下…
展开
-
数据清洗 - 异常值(学习笔记)
异常值又称离群点。异常值的鉴别1.描述分析pandas: data.describe() 可以得到连续型数据的均值、最大值、最小值、中位数、四分位、总数、标准差等。通过描述分析查看出数据中有无极端值,并将极端值剔除。一般可以初步筛查时使用。2.散点图通过展示两组数据的位置关系,可以清晰直观地看出哪些值是离群值。异常值会改变数据间的关系,通常在研究数据关系,如进行回归分析前,都会先做散点图观察数据中是否存在异常值。3.箱型图利用箱型图的四分位距(IQR interquartil原创 2022-03-16 00:27:41 · 2527 阅读 · 0 评论 -
机器学习 - 异常检测 Anomaly Detection(学习笔记)
根据输入数据,对不符合预期的模式的数据进行识别,寻找低概率数据(事件)。# train the model (unsupervised study)# 修改概率密度阈值contamination,可调整异常点检测的灵敏度from sklearn.covariance import EllipticEnvelopead_model = EllipticEnvelope(contamination=0.03)ad_model.fit(data)#predict the resulty_p原创 2022-02-26 19:35:37 · 714 阅读 · 0 评论 -
机器学习 - 关联分析 Association Analysis(学习笔记)
TID ITEMS 001 Cola, Egg, Ham 002 Cola, Diaper, Beer 003 Cola, Diaper, Beer, Ham 004 Diaper, Beer 事务:一条数据;项:Egg 一项;项集 {Egg, Ham} 2-项集项集的超集:包含这个项集的元素且元素个数更多的项集支持度计数:{Diaper, Beer}出现在事务 002、003和004...原创 2022-02-23 20:55:47 · 1045 阅读 · 0 评论 -
机器学习 - SPSS - 聚类(学习笔记)
两步聚类(Two Step)同时处理类别变量、连续变量自动确定最终的分类个数,具备自动探索未知领域的能力占用内存资源小,适合处理大型数据集,速度快同其他统计方法一样,二阶聚类也有严苛的适用条件,它要求模型中的变量独立,类别变量是多项式分布,连续变量须是正态分布。步骤:1.预聚类,即对案例进行初步归类,也允许最大类别数由使用者决定;2.正式聚类,将步骤1的出局类别在进行聚类,并确定最终的聚类方案,并会根据一定的统计标准确定聚类的类别数量。层次聚类可以对变量或案例进行聚类,变量可以为原创 2022-02-19 17:18:43 · 1141 阅读 · 0 评论 -
机器学习 - 聚类 基于网格的聚类算法(学习笔记)
其原理是将数据空间划分为网格单元,将数据对象映射到网格单元中,并计算每个单元的密度。根据预设阈值来判断每个网格单元是不是高密度单元,由邻近的稠密单元组成“类”。1.将数据空间划分为网格单元2.依照设置的阈值,判定网格单元是否稠密3.合并相邻稠密的网格单元为一类鉴于基于划分和层次聚类方法都无法发现非凸面形状的簇,真正能有效发现任意形状簇的算法是基于密度的算法,但基于密度的算法一般时间复杂度较高,1996年到2000年间,研究数据挖掘的学者们提出了大量基于网格的聚类算法,网格方法可以有效减少原创 2022-02-19 14:21:57 · 6925 阅读 · 0 评论 -
机器学习 - 聚类 层次聚类 Hierarchical(学习笔记)
其核心思想是,把每一个单个的观测都视为一个类,而后计算各类之间的距离,选取最相近的两个类,将它们合并为一个类。新的这些类再继续计算距离,合并到最近的两个类。如此往复,最后就只有一个类。然后用树状图记录这个过程,这个树状图就包含了我们所需要的信息。...原创 2022-02-19 14:14:00 · 516 阅读 · 0 评论 -
机器学习 - 数据降维 奇异值分解SVD Singular Value Decomposition(学习笔记)
SVD是提取信息的一种方法,可以把 SVD 看成是从噪声数据中抽取相关特征。从生物信息学到金融学,SVD 是提取信息的强大工具。SVD的定义SVD是对矩阵进行分解。假设我们的矩阵A是一个m×n的矩阵,那么我们定义矩阵A的SVD为:????=????Σ????????其中U是一个m×m的矩阵,Σ是一个m×n的矩阵,除了主对角线上的元素以外全为0,主对角线上的每个元素都称为奇异值,V是一个n×n的矩阵。U和V都是酉矩阵,即满足????????????=????,????????????=????原创 2021-12-29 11:44:59 · 1120 阅读 · 0 评论 -
机器学习 - 数据降维 主成分分析PCA Principal Components Analysis(学习笔记)
数据降维技术中,应用最多的方法就是PCA(Principal Components Analysis)。目标:寻找k(k<n)维新数据,使它们反映事物的主要特征。核心:在信息损失尽可能少的情况下,降低数据维度。例如,要把三维数据降为二维数据,就需要把三维数据投影到一个平面,然后为了使损失的数据尽可能少,就希望三维数据的各点到这个平面的距离尽可能小。我们可以把这个投影的线或面理解成主成分,而各点到它们的距离可以理解成损失的信息。如何保留主要信息?那就是投影后不.原创 2021-12-29 10:49:02 · 762 阅读 · 0 评论 -
机器学习 - 聚类 DBSCAN算法(基于密度的空间聚类算法) (学习笔记)
基于区域点密度筛选有效数据基于有效数据向周边扩张,直到没有新点加入特点:过滤噪音数据;不需要人为选择类别数量;数据密度不同时影响结果原创 2021-12-28 23:44:29 · 532 阅读 · 0 评论 -
机器学习 - 聚类 均值漂移聚类(Meanshift)(学习笔记)
在中心点一定区域检索数据点更新中心重复流程到中心点稳定特点:自动发现类别数量,不需要人工选择;需要选择区域半径原创 2021-12-28 23:43:50 · 443 阅读 · 0 评论 -
机器学习 - 聚类 K均值聚类 KMeans Analysis(学习笔记)
根据数据与中心点距离划分类别基于类别数据更新中心点重复过程直到收敛特点:实现简单、收敛快;需要指定类别数量(需要告诉计算机要分成几类)原创 2021-12-28 23:42:56 · 818 阅读 · 0 评论 -
机器学习 - 分类 K 最近邻分类算法 K Nearest Neighbor(学习笔记)
在学习 KNN 算法的过程中,要牢记两个关键词,一个是“少数服从多数”的投票法则(majority-voting),另一个是“距离”,它们是实现 KNN 算法的核心知识。KNN算法原理KNN算法本身简单有效,它是一种lazy-learning算法。分类器不需要使用训练集进行训练,训练时间复杂度为0。KNN分类计算复杂度和训练集中的文档数目成正比,也就是说,如果训练集中文档总数为n,那么KNN的分类时间复杂度为O(n)。KNN 算法简单易于理解,无须估计参数,与训练模型,适合于解决多分类问题、原创 2021-12-28 22:59:47 · 766 阅读 · 0 评论 -
机器学习 - 回归 岭回归 RidgeRegression和Lasso(学习笔记)
什么是范数?范数又称为“正则项”,它是机器学习中会经常遇到的术语,它表示了一种运算方式,“范数”的种类有很多,不过常见的范数主要分为两种:L1 和 L2。下面我们来分别认识一下它们。1) L1范数L1 范数非常容易理解,它表示向量中每个元素绝对值的和,根据定义,L1 范数的计算分两步,首先逐个求得元素的绝对值,然后相加求和即可。下面给出了 L1 范数正则化定义的数学表达式,如下所示:2) L2范数L2 范数出现的频率更高,表示向量中每个元素的平方和的平方根。根据定义,L2 范数的计算原创 2021-12-28 20:31:36 · 274 阅读 · 0 评论 -
机器学习 - 分类 逻辑回归 Logistic Regression(学习笔记)
乍一看算法名字,会认为逻辑回归是用来解决“回归问题”的算法,但其实它是针对“分类问题”的算法。19 世纪统计学家皮埃尔·弗朗索瓦·韦吕勒发明了 Logistic 函数,该函数的叫法有很多,比如在神经网络算法中被称为Sigmoid函数,也有人称它为Logistic 曲线。其函数图像如下所示:...原创 2021-12-28 20:21:42 · 984 阅读 · 0 评论 -
机器学习 - 回归 线性回归 Linear Regression(学习笔记)
什么是回归?“回归”一词最早由英国科学家弗朗西斯·高尔顿提出。1875 年,高尔顿利用子代豌豆与父代豌来确定豌豆尺寸的遗传规律。实验的大意是说:非常矮小的的父辈倾向于有偏高的子代,非常高大的的父辈倾向于有偏矮的子代。这表明子代的身高向着父辈身高的平均值回退,后来人们把这种研究方法称为“回归预测”。线性回归是什么?线性回归主要用来解决回归问题,也就是预测连续值的问题。利用线性模型来解决“回归问题”,那到底什么是回归问题呢?可以把它理解为“预测”真实值的过程。最简单的线性回归模型是我们所熟知的一次函原创 2021-12-28 19:33:20 · 1825 阅读 · 0 评论 -
机器学习概括(学习笔记)
(传统)机器学习传统机器学习主要有分类(Classification)、回归(Regression)、聚类(Clustering)、降维(Dimensionality Reduction)、决策树(Decision Tree)、集成学习()、强化学习()等多种分类。1.分类。属于监督类学习。生成的模型需要根据输入参数打出一个离散型数值(预测类别)。2.回归。属于监督类学习。生成的模型需要根据输入参数打出一个连续型数值(预测数值)。3.聚类。属于无监督学习。需要根据样本参数按照一定规则划分聚簇原创 2021-12-28 18:34:58 · 389 阅读 · 0 评论 -
机器学习 - 支持向量机 SVM Support Vector Machine(学习笔记)
决策边界越胖越好,容错能力更强,泛化能力更强。找到一条线(w和b),使得离该线最近的点能够越远。支持向量机求解实例a2=0代表x2这个点对于求解最大间隔分离超平面没用。只用x1,x3两个点就支撑了平面。所谓支持向量机就是靠着一些点把平面支撑起来。x1,x3叫做支持向量,是离决策边界最近的点,因为构造边界时候仅考虑最近的点。支持向量机软间隔线性不可分转换为线型可分的问题。解决方法是低维不可分映射到高维,再分解计算。软间隔问题(soft margin):是否容忍...原创 2021-12-28 14:06:56 · 733 阅读 · 0 评论 -
机器学习 - 分类 朴素贝叶斯 Gaussian(学习笔记)
贝叶斯要解决的是逆向概率的问题现实世界本身就是不确定的,人类的观察能力是有局限性的。我们日常所观察到的只是事物表面上的结果,因此需要提供一个猜测。正向概率:假设袋子里有N个白球,M个黑球,伸手进去一摸,摸出黑球的概率是多大?M/(N+M)逆向概率:如果事先不知道袋子里黑白球比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么可以就此对袋子里面的黑白球的比例作出什么样的推测?P(A|B) = P(B|A) * P(A) / P(B)...原创 2021-12-26 21:51:29 · 583 阅读 · 0 评论 -
机器学习 - 随机森林 Random Forest(学习笔记)
构造出多棵决策树,每个决策树单独执行。每次执行对样本要随机选择,选一定比例的数据(如60%),因为数据样本可能有异常值。对特征选择也随机选择,因为有的特征表达效果不好。最后将结果统一。分类:求众数;回归:求均值。Bootstraping:有放回采样Bagging:有放回采样n个样本一共建立分类器...原创 2021-12-26 20:23:58 · 883 阅读 · 0 评论 -
机器学习 - 决策树 Decision Tree(学习笔记)
什麽是决策树一种对实例进行分类的树形结构,通过多层判断区分目标所属类别本质:通过多层判断,从训练数据集中归纳出一组分类规则优点:1.计算量小,运算速度快2.易于理解,可清晰查看各属性的重要性缺点:1.忽略属性间的相关性2.样本类别分佈不均匀时,容易影响模型表现3.ID3 没有剪枝策略,容易过拟合4.信息增益准则对可取值数目较多的特征有所偏好,类似“编号”的特征其信息增益接近于 15.只能用于处理离散分布的特征6.没有考虑缺失值...原创 2021-12-26 18:06:52 · 624 阅读 · 0 评论