机器学习
旺旺丫丫
这个作者很懒,什么都没留下…
展开
-
机器学习-直方图和核密度估计(Kernel Density Estimates)
1、直方图的问题①直方图装箱(binning)的过程会导致信息丢失。②直方图不是唯一的。对比起来比较困难。③直方图不是平滑的④直方图不能很好的处理极值核密度估计(KDE)完全没有上述的问题。构建KDE需要准备核函数:下面是常用的核函数图形和定义。构建一个KDE包含两部分:①把kernel偏移到特定的位置②设定带宽bindwidth下图是高斯k...原创 2018-08-22 19:17:38 · 10427 阅读 · 0 评论 -
主成分分析(PCA)
1.PCA的原理主成分分析PCA(principal component analysis)是一种降维的方法。在PCA中,数据集被从原来的坐标系统转换到一个新的坐标系统。坐标系的选择是有数据决定的,第一个坐标选择是原始数据中方差最大的方向,第二个坐标轴选择是跟第一个坐标轴正交,并且具有最大方差的方向。其他坐标轴的选择跟这个一样的做法。这样大部分方差大的坐标就在前几个坐标系里面了。2...原创 2018-10-10 10:03:38 · 245 阅读 · 0 评论 -
scikit-learn中分类算法选择的路径
原创 2018-09-14 22:45:21 · 333 阅读 · 1 评论 -
Z-Score含义
Z-Score定义为:其中X为观测值u是总体均值σ是总体均值可以通过z查询概率原创 2018-09-15 01:32:49 · 12626 阅读 · 0 评论 -
特征选择-方差分析
1.方差分析按照其性质分为两大类:固定处理(fixed treatment)和随机效应(random effect)。方差分析模型分为三类:1)固定模型方差分析(fixed model anova),或称为模型Ⅰ方差分析。2)随机模型方差分析(random model anova),又叫做模型Ⅱ方差分析。3)混合模型方差分析(mixed model anova),即模型Ⅲ方差分析。 ...原创 2018-09-20 15:58:34 · 6821 阅读 · 0 评论 -
特征选择-单变量特征选择
1.SelectKBest可以依据相关性对特征进行选择,保留k个评分最高的特征。①方差分析分类问题使用f_classif,回归问题使用f_regression。f_classif:分类任务跟目标的分类,将样本划分成n个子集,S1,S2,..,Sn,我们希望每个子集的均值μ1,μ2,...,μn不相等。我们假设H0:μ1=μ2=...=μn,当然我们希望拒绝H0,所以我们希望构造...原创 2018-09-20 22:53:52 · 5919 阅读 · 0 评论 -
特征选择-χ²检验
χ²检验用来检验两个事件的独立性。如果A,B两个事件是独立的,则概率P(AB)=P(A)P(B)。公式如下:其中:1)D是数据集2)t:term,即特征3)c:class,分类4)N:在数据集里面观测值的频率5)E:数学期望计算方法:0)前提假设:t与c是独立的1)首先计算t=xi,c=yi的观测值(观测数量/频率)Nx,y= xi出现并且yi出...原创 2018-09-21 10:42:52 · 2380 阅读 · 0 评论 -
机器学习-AUC/ROC
1.ROC接收者操作特征曲线(receiver operating characteristic curve,或者叫ROC曲线)ROC空间将伪阳性率(FPR)定义为 X 轴,真阳性率(TPR)定义为 Y 轴。TPR:在所有实际为阳性的样本中,被正确地判断为阳性之比率。FPR:在所有实际为阴性的样本中,被错误地判断为阳性之比率。给定一个二元分类模型和它的阈值,就能从所有样...原创 2018-10-12 00:46:05 · 651 阅读 · 0 评论 -
机器学习-线性感知机模型
把断断续续学习的机器学习方面的东西整理一下,还是需要系统的记录一下。线性预测定义下面的的函数Ld是一个函数集合,W是d维度的参数,b是定义在R的标量。所以整个函数就是标量。当Y的值域是{-1,1}的时候,半空间可以定义为:在于W垂直的超平面上面的部分,数据被标记为正类,当在超平面的下面的话,数据被标记为负类。=>两边同时乘以因为sign(&l...原创 2018-11-20 16:36:45 · 277 阅读 · 0 评论 -
连续数据的离散化
1.分段类散同步pandas.cut对值进行分段划分,进行离散化。类散化后是分段的index。import pandas as pddata = [1,3,6,20,50,100]w =[0,10,50,100]v=5data_cut1 = pd.cut(data,w,labels=False)data_cut2=pd.cut(data,v,labels=False)print...原创 2018-09-19 00:42:05 · 2311 阅读 · 0 评论 -
特征变换
1.One-Hot Encoding有多少个状态就用几个bit来进行表示,实际上是向量维度增加了。树形模型不进行One-Hot Encodingfrom sklearn.preprocessing import OneHotEncoderimport pandas as pddata = pd.DataFrame({'number': [1, 2, 1], 'age': [20, ...原创 2018-09-18 18:24:31 · 947 阅读 · 0 评论 -
机器学习-累计分布函数(CDF)
1.累计分布函数(The Cumulative Distribution Function):在x点左侧事件发生的总和。累计分布函数的特性:①因为累计分布函数是计算x点左侧的点的数量,所以累计分布函数CDF是单调递增的。②CDF比没有直方图变化剧烈,但是CDF包含了相同的信息,并且减少了噪声。。③由于CDF不存在装箱(分段),因此比直方图能更好的展现数据。④所有的CDF中,...原创 2018-08-23 12:04:35 · 60295 阅读 · 6 评论 -
机器学习-统计学概要
1.平均值(mean)2.方差(variance)3.标准差(standard deviation)4.中位数(median)一组数据进行排序,如果是基数个数,则取中间的那个数据。如果是偶数个数据,则取中间两个数的平均值。5.分位数(quantiles)针对一组数据(n个数据)进行从小到大进行排序,p分为数为(1+n)*p位置上对应的数。6.百分位数(per...原创 2018-08-23 14:17:09 · 161 阅读 · 0 评论 -
机器学习-箱线图(Box-and-Whisker Plots)
箱线图的构成:1.中位图 代表分布的位置2.箱线(box)代表内部的上下4分位的宽度,可以作为分布的宽度3.上下边界:分布的上下尾部4.极端值原创 2018-08-23 16:26:04 · 11775 阅读 · 0 评论 -
PAC学习框架-泛化误差
术语:independently and identically distributed (i.i.d.) 独立同分布The notation x∼D simply states that the sample x came from the specific distribution that was noted as D.定义理解 1.泛化误差(Generalization e...原创 2018-08-21 01:19:28 · 592 阅读 · 0 评论 -
PAC学习框架-经验误差
假设h∈H,目标concept c∈C,并且在训练集上S=(x1,..,xm),经验误差被定义为:经验误差实际上是在学习集上的误差。在i.i.d的情况下,数据量理想的情况下,经验误差的数学期望等于实际误差。...原创 2018-08-21 10:23:35 · 300 阅读 · 0 评论 -
PAC学习框架-模型定义
针对概念分类C,PAC可学习定义为:存在算法A和多项式 poly(.,.,.,.)对于任意的ε和δ(其中ε是最大错误率,δ是置信度),针对X上的任意分布D,针对任意的c∈C,针对任意的数量m>poly(1/ε,1/δ,n,size(c))的学习集,以下概率都成立:则如果A运行在poly(1/ε,1/δ,n,size(c))中,则称C是可以PAC学习的。如果算法A存在,则称A是...原创 2018-08-21 11:13:32 · 2967 阅读 · 0 评论 -
机器学习的数据准备
数据准备是机器学习的关键步骤。大致可以分为以下步骤:1.选择数据这一步骤是选择可分析的业务数据的一个子集。2.选择数据后就需要对数据进行预处理。包含以下内容:①格式化转换成需要的形式②清理删除或者修复部分缺失的数据。③采样可能选择的数据比模型运行的要的数据要多,可以从选择的数据中选取有代表性的数据进行使用。3.转换数据①放缩预处理后的数据可能...原创 2018-08-21 18:14:59 · 652 阅读 · 0 评论 -
特征放缩(Feature scaling)
特征放缩的几种方法1.Min-Max scaling min-max标准化该方法是最简单的数组放缩方法。处理类:from sklearn.preprocessing import MinMaxScaler2.均值归一化处理(Mean normalization)3.均值标准化Z-score standardization在很多机器算法中使用到,例如支持向量机,逻...原创 2018-09-18 15:39:54 · 531 阅读 · 0 评论 -
机器学习-感知机模型(pocket算法)实现
我们上一篇考虑的感知机模型有一个假定:数据是线性可分的。实际上,由于噪音或者其他因素的存在,不能都是线性可分的。所以,需要考虑非线性可分的情况下,实现方法。这里使用Pocket算法:Pocket算法的思想非常简单,在搜索W的时候,不断记录最好的准确率和W。这样即使数据不是线性可分的,也可以得到比较好的测试结果(只要不断的提高迭代的次数)数据:https://www.csie.ntu...原创 2018-11-22 18:29:08 · 1754 阅读 · 0 评论