ID3-CSDN博客

原创极大似然估计 EM算法 Kmeans收敛性

极大似然估计估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式，再基于训练样本对概率分布的参数进行估计。贝叶斯决策首先先看贝叶斯公式p(w)为先验概率，表示了每一种标签类别分布的概率p(x|w)表示条件概率，表示了在某种类别的前提下，出现某类特征的概率p(w|x)表示后验概率，表示出现了某些特征，并且此时这个样本属于某一类别的概率，可以根据后验概率的大小，进行分类极大似然估计极大似然估计就是为了利用已知的样本结果，反推最有可能导致这种结果的参数值。原理：极大似然估计提供了一

2021-04-20 22:46:48 742

原创数据降维

主成分PCA和SVD都是使用矩阵分解达到降维的方法，在降维的过程中，目的是希望减少特征的数目，同时又希望保留大部分有效信息，所以需要将重复的特征合并，删除无效信息，从而创建出更能代表原特征矩阵大部分信息的低维特征矩阵PCA降维使用的信息衡量指标是样本方差，在信号处理领域，我们通常认为信号具有较高的方差，噪声具有较低的方差，所以样本方差越大的特征，携带的信息量越多，所以最后我们需要对矩阵的特征值大到小排序，找到我们需要的前k个最大的特征值，并找到对应的特征向量。var代表了一个特征的方差，n代表样本量.

2021-04-12 13:22:01 239

原创为什么样本方差要除n-1

2021-04-11 22:02:16 403

原创 GRU名字国籍分类

首先是先将字词转变为独热编码维度太高过于稀疏会通过嵌入层转换为低维稠密向量只需将最后的 hn记录并通过全连接层转为 18个类别选择概率最大的样本作为可能的国家数据准备将名字每一个字符转换为列表，再做词典，用ASCII对每一个字符进行编码https://baike.baidu.com/item/ASCII/309296?fr=aladdin双向的RNN,GRU,LSTM 输出的hidden有两个HIDDEN_SIZE=100 指定的隐藏层数目BATCH_SIZE=256 每

2021-04-08 14:09:46 360

原创数据挖掘面试：03基础特征选择

Filter过滤法：依据方差进行过滤最基础的特征选择方法，基于每个特征的方差进行过滤筛选，通常将方差阈值为0，主要为了删除一些明显用不到的特征。from sklearn.feature_selection import VarianceThresholdVTS=VarianceThreshold()#默认阈值为0VTS=VarianceThreshold(np.median(x.var().values))#也可将阈值定为方差中位数VTS=VTS.fit(x)X_fsvar=VTS.transf

2021-03-22 22:28:19 569

原创数据挖掘面试：02填补缺失值与特征工程

一、缺失值填补填补缺失值有多种方法，如直接用numpy进行填补，如用该特征的众数，中位数，均值进行填补，sklearn中也有针对缺失值的填补方式。from sklearn.impute import SimpleImputer #填补缺失值imp_mean=SimpleImputer()#默认为均值填补imp_median=SimpleImputer(strategy='median')#中位数imp_0=SimpleImputer(strategy='constant',fill_value=

2021-03-21 21:35:52 661

原创数据挖掘面试：01特征归一化

01特征归一化Q：为什么要对数值型特征做归一化A：1）归一化后的特征可以提高模型的收敛速度速度2）归一化可以提高模型精度，这在涉及到一些距离计算的算法时效果显著，比如算法要计算欧氏距离，下图中x2的取值范围比较小，涉及到距离计算时其对结果的影响远比x1带来的小，所以这就会造成精度的损失。所以归一化很有必要，他可以让各个特征对结果做出的贡献相同。在多指标评价体系中，由于各评价指标的性质不同，通常具有不同的量纲和数量级。当各指标间的水平相差很大时，如果直接用原始指标值进行分析，就会突出数值较高的指标在综

2021-03-21 15:26:58 702

原创 SVM推导python实现

SVM算法超详细推导加手动实现代码import timeimport numpy as npimport mathimport randomclass SVM: def __init__(self,trainDataList,trainLabelList,sigma=10,C=200,toler=0.001): self.trainDataMat=np.mat(trainDataList) self.trainLabe

2020-09-13 17:35:16 286

原创逻辑回归最大熵模型 iis 牛顿法拟牛顿法

逻辑回归最大熵模型 iis 牛顿法拟牛顿法推导逻辑回归（梯度下降法）代码实现import numpy as npimport pandas as pddef sigmoid(inX): return 1.0/(1+np.exp(-inX))def regularize(xMat): inMat=xMat.copy() inMeans=np.mean(inMat,axis=0) inVar=np.std(inMat,axis=0)

2020-08-17 22:28:37 636 1

原创决策树

决策树作为监督学习类应用及其广泛的一类模型，既可以做分类又可以做回归，而决策树模型也在不断改进之中，首先介绍ID3算法，ID3算法的核心就是先对整个数据集进行总信息熵的计算，再对各个特征分别计算他们的信息熵，从而计算出信息增益，选择信息增益最大的特征进行分支，这就是贪心算法，所有的树模型都是运用了贪心算法C4.5算法引入了分支度的概念，计算公式如下：在C4.5算法中，使用之前得到的信息增益除以分支度作为选取切分字段的参考指标，就是增益率：在C4.5中增加了针对连续变量的处理手段，首先将该列特征从

2020-06-28 22:26:22 154

原创朴素贝叶斯

https://blog.csdn.net/familyshizhouna/article/details/72179540?utm_medium=distribute.pc_relevant.none-task-blog-baidujs-5https://blog.csdn.net/xiaoxiao_wen/article/details/54097917

2020-06-04 23:40:50 331

原创 KNN KD树原理及代码实现

K近邻法KNN是机器学习的基本算法，也是原理最简单的算法之一，既可以做分类也可以做回归，作为惰性学习算法，KNN不产生模型，算法的原理也很简单，现有一个数据集，里面很有多个有标签的样本，这些样本的共有的特征构成了一个多维空间，当有一个需要预测的样本出现时，我们把这个样本放入到多维空间中，找到离这个样本点最近的k个样本，这些样本叫做最近邻，我们采用少数服从多数，一点一票的原理来判断，在最近邻中最多标签的类别就是这个样本点的标签类别，越相近越相似算法解析上图是书中给出的算法流程，很好理解，根据距离公式在

2020-06-03 14:03:58 1701 3

原创机器学习算法感知机详解加代码

感知机今天出去跑滴滴看到一个小伙子拿了一本李航的统计学习方法，于是回家又翻出了这本书打算从头到尾写博客介绍一遍各个算法的原理和代码。感知机模型感知机是一个二分类的线性分类模型，输入实例的特征向量，输出实例的类别，取+1，-1二值，对应于特征空间中将实例划分为正负两类的超平面，那么如何求得这个超平面，导入了基于误分类的实例的损失函数，使用梯度下降法求解损失函数最小化时的最优参数w和b,求得了感知机模型。感知机函数：f(x)=sign(w·x+b)其中x表示了实例的特征向量，w是权值向量，b为偏置，s

2020-06-02 00:23:41 508