机器学习
技术宅zch
新时代农民工,IT搬砖狗
展开
-
聚类效果评估——轮廓系数(Silhouette Coefficient)附Python代码
轮廓系数前言是什么?为什么?由此可得:怎么用?不适用示例前言在机器学习中,无监督学习算法中聚类算法算作相对重要的一部分算法。也常在低资源和无标注的情况下使用。其中KMeans作为聚类算法中的一种,充当着重要的角色。由于其思想较为简单,易于理解和方便实现。所以经常被用来做数据的处理,在NLP领域常被用于文本聚类以及文本类别挖掘等方向。但是KMeans算法有一个致命的缺点就是,如何选择K值。K值的选择至关重要,选择的好可以有较好的聚类效果。通常情况下,K值的选择人们会根据先验的知识给定一个估计的值,或原创 2020-06-19 20:20:18 · 82270 阅读 · 7 评论 -
《百面机器学习》第一章——特征工程 笔记(简)
特征工程1. 特征归一化2. 类别型特征3. 高维组合特征的处理4.组合特征5. 文本表示模型6. Word2Vec7. 图像数据不足时的处理方法1. 特征归一化对数值类型的特征做归一化,最终将特征的取值都统一到大致相等的数值区间内。优点:可将所有特征消除量纲。避免结果倾向于数值差别较大的特征。常见的方法有:线性函数归一化零均值归一化适用于:逻辑回归、SVM、神经网络不...原创 2019-08-21 23:03:27 · 203 阅读 · 0 评论 -
决策树(二)——决策树的剪枝(预剪枝和后剪枝)
决策树的剪枝什么是决策树的剪枝?为什么要剪枝?剪枝策略的分类预剪枝优缺点后剪枝后剪枝算法的分类优缺点奥卡姆剃刀定律预告andTODOReference什么是决策树的剪枝?对比日常生活中,环卫工人在大街上给生长茂密的树进行枝叶的修剪。在机器学习的决策树算法中,有对应的剪枝算法。将比较复杂的决策树,化简为较为简单的版本,并且不损失算法的性能。为什么要剪枝?剪枝是决策树算法防止过拟合的一种手段,...原创 2019-08-03 16:21:55 · 13555 阅读 · 0 评论 -
决策树(一)——决策树的生成ID3、C4.5、CART
决策树的生成基础概念什么是信息熵?Reference基础概念什么是信息熵?熵是度量样本集合纯度最常用的一种指标,代表一个系统中蕴含有多少信息量,信息量越大表明一个系统不确定性越大,就存在越多的可能性,即信息熵越大。假定当前样本集合D中第k类样本所占的比例为pk(k=1,2,...,∣y∣)p_k(k=1,2,...,|y|)pk(k=1,2,...,∣y∣),则D的信息熵为:Ent(D...原创 2019-08-03 13:29:45 · 550 阅读 · 0 评论 -
机器学习中的数学基础(2)——线性代数
线性代数基础矩阵的运算:加法:对位相加数乘:每位都乘矩阵乘法方阵才有逆矩阵矩阵求导∂Ax∂x=AT{\frac{\partial Ax}{\partial x}=A^T}∂x∂Ax=AT求导后为系数矩阵的转置Hessian矩阵和Jacobian矩阵书写规则:Jacobian矩阵:(一阶偏导矩阵)行为:每个函数fif_ifi的变化列为:每个变量xjx_jxj的变...原创 2019-05-20 23:54:54 · 448 阅读 · 0 评论 -
机器学习中的评价方法总结(正确率,精确率,召回率,F1值,ROC曲线,AUC面积,Loss)
机器学习中的评价指标详解ReferenceReference[1] https://www.cnblogs.com/dlml/p/4403482.html[2] https://www.cnblogs.com/sddai/p/5696870.html[3] https://blog.csdn.net/abcjennifer/article/details/7359370[4] https...原创 2019-04-02 23:03:53 · 4974 阅读 · 2 评论 -
什么是交叉验证(Cross Validation)?
交叉验证简述常见方法1. 简单交叉验证2.S折交叉验证3.留一交叉验证Reference简述验证是指的在机器学习模型训练时对模型好坏程度的衡量。交叉验证就是一种常用的模型选择方法,使用部分数据集进行验证模型的有效性。常见方法常见的交叉验证方法分为3种:1. 简单交叉验证将数据集分为两部分(或者是三部分),70%作为训练集,30%作为验证集。使用70%的数据,选择不同的模型参数,进行训...原创 2019-04-02 22:57:50 · 14147 阅读 · 0 评论 -
L1正则化与L2正则化详解
L1、L2正则化什么是正则化?L1、L2正则化公式正则化的作用为什么加入L1正则化的模型会更稀疏1.梯度视角2.解空间形状视角3.函数叠加视角4.贝叶斯先验视角什么是正则化?正则化在DL、ML中的含义为,为模型取得较好的泛化性,在目标函数中添加的相应惩罚项。通俗的来讲:正则化的加入就是为了提高模型的表征能力与适应能力,使其不至于对训练数据集产生过拟合现象。L1、L2正则化公式L1正则化...原创 2019-03-28 17:58:38 · 5663 阅读 · 0 评论 -
机器学习,深度学习模型训练阶段的Shuffle重要么?为什么?
模型训练中的Shuffle什么是Shuffle?模型训练过程中需要Shuffle么?Shuffle为什么重要?小结Reference什么是Shuffle?shuffle(中文意思:洗牌,混乱)。shuffle在机器学习与深度学习中代表的意思是,将训练模型的数据集进行打乱的操作。原始的数据,在样本均衡的情况下可能是按照某种顺序进行排列,如前半部分为某一类别的数据,后半部分为另一类别的数据。但经...原创 2019-03-28 10:52:58 · 32588 阅读 · 7 评论 -
Dropout是什么?为什么Dropout可以防止过拟合?
深度学习中的Dropout什么是Dropout?为什么要使用Dropout?为什么Dropout可以防止过拟合?1.取平均的作用2.减少神经元之间复杂的共适应关系3.Dropout类比于性别生物进化中的角色Reference什么是Dropout?Dropout中文含义:退出。其指的就是在神经网络的训练过程中提出的一种防止过拟合的策略。策略旨在训练过程中按照一定的概率(一般情况下:隐藏层采样概...原创 2019-03-22 14:43:55 · 10164 阅读 · 7 评论 -
信息熵、条件熵、信息增益、信息增益率、基尼指数简述
在机器学习、信息论与统计学中信息熵、条件熵、信息增益、信息增益率(比)、基尼系数这五个概念相当基础也非常重要。today,博主也捋一捋这基本的概念,由于个人水平所限,还请各位看官多多指教!信息熵概念:用来表示随机变量不确定性程度的量,设X是一个取值范围有限的离散随机变量,其概率分布可以表示为: ...原创 2018-11-23 20:02:09 · 970 阅读 · 0 评论