Machine Learning
AiBigData
生而有涯,知而无涯.
不断迭代,实现自我.
展开
-
机器学习中SVD总结
原文章地址机器学习中SVD总结1. 矩阵分解1.1 矩阵分解作用矩阵填充(通过矩阵分解来填充原有矩阵,例如协同过滤的ALS算法就是填充原有矩阵)清理异常值与离群点降维、压缩个性化推荐间接的特征组合(计算特征间相似度)1.2 矩阵分解的方法特征值分解。PCA(Principal Component Analysis)分解,作用:降维、压缩。SVD(Singular Va...转载 2020-03-04 18:46:27 · 514 阅读 · 0 评论 -
梯度下降法
梯度下降法首先引出梯度的定义:梯度是一个矢量,其方向的方向导数最大,其值的大小正好是此最大方向导数最优化问题在机器学习中有非常重要的地位,很多机器学习算法最后都归结为求解最优化问题。在各种最优化算法中,梯度下降法是最简单、最常见的一种,在深度学习的训练中被广为使用。最优化问题最优化问题是求解函数极值的问题,包括极大值和极小值。相信所有的读者对这个问题都不陌生,在初中时我们就学会了求...转载 2020-03-02 17:02:42 · 752 阅读 · 0 评论 -
最小二乘估计,矩阵方法求解
D={(x1,y1),(x2,y2),...(xN,yN)}xi∈Rp(xi是一个列向量),yi∈R,i=1,2,...,ND=\{(x_1,y_1),(x_2,y_2),...(x_N,y_N)\}\\x_i\in \mathbb{R}^p(x_i是一个列向量),y_i\in \mathbb{R},i=1,2,...,N\\D={(x1,y1),(x2,y2),...(xN,yN...原创 2020-02-19 20:58:22 · 1741 阅读 · 0 评论 -
L1正则化理论推导,为什么L1产生稀疏解?
L1正则化技术F(w;x,y)=J(w;x,y)+α∣∣w∣∣1=J(w;x,y)+α∑i=1n∣wi∣假设w∗是损失函数J(w;x,y)最优解,J(w;x,y)在w∗处泰勒展J(w;x,y)=J(w∗;x,y)+J′(w∗;x,y)(w−w∗)+12!J′′(w∗;x,y)(w−w∗)2 ∵w∗是J(w;x,y)最优解,则J′(w∗;x,y)=0,则可以去除J(w∗;x,y...原创 2020-02-18 20:43:55 · 765 阅读 · 0 评论 -
LR(逻辑斯谛)公式推导
一个事件的几率(odds)=事件发生的概率事件不发生的概率\frac {事件发生的概率}{事件不发生的概率}事件不发生的概率事件发生的概率=p1−p\frac{p}{1-p}1−pp该事件的对数几率(log odds)或logit函数是logit(p)=logp1−plogit(p)=log^{\frac{p}{1-p}}logit(p)=log1−pp我们结合sigmoid函数,线性...原创 2020-02-11 18:25:37 · 1849 阅读 · 0 评论 -
SparkMllib模型选择与优化-网格搜索和交叉验证
SparkMllib模型选择与优化如何对模型选择与优化通过Spark提供的CrossValidation、TrainTestSplit方法交叉验证Estimate(估算器):fit-transform,算法或管道调整Param:网格搜索进行超参数(模型训练之前提前给定的参数,参数是学习过程中学习到最优解的参数)的选择Evaluator:分类(二分类和多分类)和回归不同校验方式...原创 2019-12-01 20:58:06 · 3081 阅读 · 3 评论 -
GBD+XGBOOST算法原理深入解析
GBDT+XGBOOST算法原理深入解析 首先对GBDT算法原理进行介绍,从机器学习的关键元素出发,一步一步推导出GBDT算法背后的理论基础,我们可以从这个过程中了解到GBDT算法的来龙去脉。对于该算法的工程实现,本文也有较好的指导意义,实际上对机器学习关键概念元素的区分对应了软件工程中的“开放封闭原则”的思想,基于此思想的实现将会具有很好的模块独立性和扩展性。1、GBDT和Boosting...原创 2019-11-29 22:01:09 · 1283 阅读 · 0 评论 -
决策树算法,ID3,C4.5,CART原理,SparkMllib的鸢尾花实战
决策树算法原理什么是决策树现实生活中的树树根->树干->树枝->树叶数据结构中的树树根结点分支结点叶子结点机器学习中的树分支结点叶子结点数据集中的特征是分支节点、数据集中的类别标签列是叶子节点。决策树的关键步骤是分裂属性。所谓分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支,其目标是让各个分裂子集尽可能地“...原创 2019-11-24 16:17:44 · 2504 阅读 · 0 评论 -
SparkMllib特征提取、转换、选择
SparkMllib特征提取、转换、选择SparkMllib特征提取TF-IDF的理解TF(Term frequence):某个词在一个文档中出现的频率。TF=某个词在一个文档中出现的次数这个文档中词的总数TF=\frac{某个词在一个文档中出现的次数}{这个文档中词的总数}TF=这个文档中词的总数某个词在一个文档中出现的次数有些停用词几乎在所有的文章中都有出现,故只使用词频来进行...原创 2019-11-21 20:37:32 · 674 阅读 · 0 评论 -
SparkMllib基础、功能及应用场景、算法分类及应用场景、基础数据类型
SparkMllib基础及特征工程1.Spark功能及应用场景SparkMllib的功能ML算法:包括了分类、回归、降维、协同过滤、聚类Featurization特征化:特征抽取、特征转换、特征降维、特征选择pipeline管道:tools for constructing,evaluating and tuning ML pipelinesPersistence持久化 :模型的保...原创 2019-11-18 22:05:36 · 2879 阅读 · 0 评论 -
Spark机器学习基础-机器学习跟深度学习区别、基本概念等
Spark机器学习基础SparkMllib—Spark机器学习库1.机器学习和大数据的区别和联系大数据时代的改变大数据时代究竟改变了什么?—思维方式1.数据重要性----数据资源------数据资产(增值)2.方法论:基于知识的理论完美主义—基于数据的历史经验主义3.数据分析:统计学(抽样理论)------数据科学(大数据)数据科学家:大数据技术+机器学习算法技术+多年的...原创 2019-11-17 18:40:12 · 465 阅读 · 0 评论 -
机器学习-分类度量(classification metric)常用评价指标
评判指标存在的目的应用场景混淆矩阵accuracy =(TP+TN)/(TP+TN+FP+FN)precision =TP/(TP+FP)recall 召回率=真阳性率(True Positive Rate,TPR)=灵敏度(Sensitivity)=(TP/TP+FN)P-R曲线=precision recall curve真阴性率(True Negative Rate,TNR)...原创 2019-11-09 18:14:51 · 1690 阅读 · 0 评论 -
特征缩放-归一化normalization,标准化Standardization详解-思维导图
特征缩放的种类和各自的计算公式Rescaling (min-max normalization)Mean normalizationStandardization (Z-score Normalization)Scaling to unit length特征缩放的本质最大最小归一化和标准化如何选取特征缩放的好处...原创 2019-11-07 23:16:23 · 273 阅读 · 0 评论 -
机器学习基本概念-思维导图
行业热词解释机器学习基本术语机器学习整体流程机器学习的整体流程机器学习算法分类机器学习结果评估问题二分类问题回归问题聚类问题...原创 2019-11-04 18:18:06 · 483 阅读 · 0 评论