Daycym的博客

Keep Moving

【机器学习】EM算法从小白到理解,附带案例代码

前言

2019-01-10 11:33:35

阅读数 79

评论数 0

【机器学习】支持向量机详解,附带案例

回顾

2018-12-18 16:00:29

阅读数 172

评论数 0

【机器学习】层次聚类、密度聚类以及谱聚类

前言 K-means 聚类,介绍了 K-means 算法以及一些优化改进的算法,通过此了解聚类分析,接下来我们进一步的介绍聚类分析的其他方法。 一、层次聚类 \quad\quad层次聚类技术是第二类重要的聚类方法。层次聚类方法对给定的数据集进行层次的分解,直到满足某种条件为止,传统的层次聚类算法主...

2018-12-05 18:37:53

阅读数 76

评论数 0

【机器学习】K-Means算法及多种优化改进算法,聚类模型评估,附带案例代码

一、聚类分析 聚类分析是根据在数据中发现的描述对象(数据)及其关系的信息,将数据划分成有意义或有用的组(簇)。其目标是: 组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的); 组内的相似性(同质性)越大,组间差别越大,聚类就越好。 聚类可以看作是一种分类,它用簇标号创...

2018-12-04 20:01:35

阅读数 444

评论数 1

【机器学习】一文理解集成学习Boosting思想之GBDT、XGBoost,附带案例

前言 AdaBoost 前面我们介绍了使用 Boosting 思想的 AdaBoost ,它是通过前一轮决策的结果来给样本设置权重,决策正确的权重减小,决策错误的权重增加;然后将加权后的数据集输入下一个弱学习器训练,直到达到训练停止条件。 本篇将介绍 Boosting 的GBDT、XGBoost ...

2018-11-29 23:56:29

阅读数 78

评论数 0

【机器学习】一文理解集成学习Boosting思想之AdaBoost,附带案例

一、Boosting(提升学习) 随机森林 在随机森林的构建过程中,由于各棵树之间是没有关系的,相对独立的;在构建的过程中,构建第m个子树的时候,不会考虑前面的m-1棵子树。 那么: 如果在构建第m棵子树的时候,考虑到前m-1棵子树的结果,会不会对最终结果产生有益 的影响? 各个决策树组成随机森...

2018-11-28 17:46:54

阅读数 77

评论数 1

【机器学习】集成学习Bagging思想之随机森林(Random Forest)

一、集成学习(Ensemble Learning) \quad\quad当我们在做重要决定时,大家可能都会考虑吸取多个人而不只是一个人的意见。机器学习处理问题时,又何尝不是如此? 集成学习的思想就是将若干个学习器(分类器&回归器)组合...

2018-11-27 16:57:48

阅读数 67

评论数 0

【机器学习】决策树剪枝优化及可视化

前言 \quad\quad前面,我们介绍了分类决策树的实现,以及用 sklearn 库中的 DecisionTreeClassifier 和 DecisionTreeRegressor 类实现了分类决策树和回归决策树的一些案例。 具体可见:分类决策树与回归决策树 其中,我们也对决策树的不同深度...

2018-11-26 15:03:53

阅读数 73

评论数 0

【机器学习】分类决策树与回归决策树案例

一、回顾 什么是决策树,信息熵 构建决策树的过程 ID3、C4.5和CRAT算法 上面三篇,主要介绍了相关的理论知识,其中构建决策树的过程可以很好地帮助我们理解决策树的分裂属性的选择。 二、决策树的Python实现 ...

2018-11-25 18:47:40

阅读数 86

评论数 0

【机器学习】一文搞懂K近邻算法(KNN),附带多个实现案例

一、KNN回顾 kkk近邻算法 kkk 近邻学习是一种常用的监督学习方法,比如:判断一个人的人品,只需要观察与他来往最密切的几个人的人品好坏就可以得出,即“近朱者赤,近墨者黑”。 理论/原理:“物以类聚,人以群分” 相同/近似样本在样本空间中是比较接近的,所以可以使用和当前样本比较近的其他样本...

2018-11-24 20:48:36

阅读数 1660

评论数 8

【机器学习】线性回归算法的过拟合比较

回顾 过拟合与欠拟合 主要介绍了什么是欠拟合什么是过拟合 对抗过拟合 主要介绍了线性回归中对抗过拟合的方法,主要包括:L1-norm的LASSO回归、L2-norm的Ridge回归,此外还有一个没有提到,L1-norm和L2-norm结合的Elasitc Net(弹性网络) Ridge模型具...

2018-11-22 13:49:23

阅读数 50

评论数 0

【机器学习】基于梯度下降法的自线性回归模型

回顾 关于梯度下降法 以及线性回归的介绍,我们知道了: 线性回归的损失函数为: J(θ)=12∑i=1m(hθ(x(i))−y(i))2J(\theta) = \frac{1}{2} \sum_{i=1}^m\Big(h_\theta(x^{(i)}) - y^{(i)}\Big)^2J(θ)=...

2018-11-22 13:18:10

阅读数 34

评论数 0

【Python数据结构与算法】Array(数组)

Array(数组) 下图为6个元素 [15, 6, 12, 9, 13, 20] 的数组: 数组是一个盛有单一类型固定数量值的容器类 以0开始的索引 数组的元素带编号,编号从0开始,如上图中,元素6的位置1;而元素15的位置为0 元素的位置称为索引,因此,元素6位于索引1处 数组长度 ...

2018-11-20 20:35:43

阅读数 66

评论数 0

【机器学习】最小二乘法求解线性回归参数

回顾 回归分析之线性回归 中我们得到了线性回归的损失函数为: J(θ)=12∑i=1m(hθ(x(i))−y(i))2J(\theta) = \frac{1}{2}\sum_{i=1}^m\bigg(h_\theta(x^{(i)}) - y^{(i)}\bigg)^2J(θ)=21​i=1∑m​...

2018-11-20 16:55:26

阅读数 120

评论数 0

【机器学习】机器学习模型训练与测试评估

模型训练 模型选择 对于特定任务最优建模方法的选择或者对特定模型最佳参数的选择 交叉验证 在训练数据集上运行模型(算法)并且在测试数据集上测试效果,迭代 更新数据模型的修改,这种方式被称为“交叉验证”(将数据分为训练集 和 测试集),使用训练集构建模型,并使用测试集评估模型提供修改建议。 ...

2018-11-19 22:17:46

阅读数 106

评论数 0

【机器学习】梯度下降法详解

一、导数 导数 就是曲线的斜率,是曲线变化快慢的一个反应。 二阶导数 是斜率变化的反应,表现曲线的 凹凸性 y=f(x)y = f(x)y=f(x) y′=f′(x)=dydx=lim⁡Δx→0ΔyΔx=lim⁡Δx→0f(x0+Δx)−f(x0)Δxy&amp...

2018-11-18 23:00:00

阅读数 40

评论数 0

【hadoop】本地Eclipse编写hadoop词统计代码本地测试,打包上传服务器测试

环境准备 1、服务器配置好hadoop2.7.3,详细配置过程可参考 hadoop2.7.3环境配置 2、本地安装好Eclipse,并配置好maven 3、本地解压hadoop-2.7.3,并下载winutils.exe文件放在自定义目录下 本地Eclipse配置maven 下载安装Ecli...

2018-11-18 11:49:41

阅读数 186

评论数 0

【机器学习】使用Keras开发的流程(IMDB数据集电影评论二分类)

Keras简介 \quad\quadKeras是一个Python深度学习框架,是一个模型级的库,为开发深度学习模型提供了高层次的构建模块,可以方便地定义和训练几乎所有类型的深度学习模型。 Keras具有以下重要特性: 相同代码可以在CPU或GPU上无缝切换运行 强大的API,便于开发深度学习模型...

2018-11-08 23:21:07

阅读数 161

评论数 0

【深度学习】CNN的实现以及在手写数字识别中的应用

回顾 Affine层、Relu层以及SoftmaxWithLoss层实现 卷积层和池化层实现 上面两篇博客,实现了CNN包含的层,下面我们只需要将他们组合起来,搭建进行手写数字识别的CNN CNN实现 我们按上图CNN的网络结构进行实现,这里只包含一层卷积层 下面给出各层的实现代码,具...

2018-11-08 18:47:23

阅读数 59

评论数 0

【深度学习】神经网络的优化方法

前言 \quad\quad我们都知道,神经网络的学习目的是找到使损失函数的值尽可能小的参数,这是一个寻找最优参数的问题,解决这个问题的过程可以称为最优化,但由于参数空间非常复杂,无法轻易找到最优解,而且在深度学习中,参数的数量非常大,导致最优化问题更加复杂。 \quad\quad在这之前,我们是将...

2018-11-08 18:38:40

阅读数 38

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭