数据挖掘
冬之晓东
国家对地观测科学数据中心信息发布
展开
-
使用机器学习和数据挖掘算法进行数据处理
数据挖掘和机器学习是进行数据处理的非常有用的工具,当代的好多数据都使用这两种方法。但是这两种方法却包含很多模型和方法,对于初学者来说,面对这些模型总是无从下手。因此,后面的论述主要以处理数据的流程入手,把每个方法带入到数据处理的步骤中来讲,使得这些方法在数据处理中的具体位置有一个清晰的显示,有利于理解这些方法。原创 2017-12-12 21:08:54 · 15440 阅读 · 3 评论 -
多元高斯分布(二)——更多关于多元高斯分布
注意,本文内容来自于吴恩达老师cs229课堂笔记的中文翻译项目:https://github.com/Kivy-CN/Stanford-CS-229-CN 中部分的内容进行翻译学习。更多关于多元高斯分布介绍到目前为止的课堂上,多元高斯分布已经出现在许多应用中,比如线性回归的概率解释、高斯判别分析、高斯混合聚类,以及最近学习的因子分析。在本节的笔记中,我们试图揭开多元高斯函数在最近学习的因...翻译 2019-07-25 15:32:55 · 2840 阅读 · 0 评论 -
凸优化学习(四)——凸优化问题
注意,本文内容来自于吴恩达老师cs229课堂笔记的中文翻译项目:https://github.com/Kivy-CN/Stanford-CS-229-CN 中的凸优化部分的内容进行翻译学习。4 凸优化问题利用凸函数和集合的定义,我们现在可以考虑凸优化问题。 正式的定义为:一个凸优化问题在一个最优化问题中的形式如下:minimizef(x)subjecttox∈Cminimize\qua...翻译 2019-03-18 08:29:43 · 2149 阅读 · 0 评论 -
凸优化学习(三)——凸函数
注意,本文内容来自于吴恩达老师cs229课堂笔记的中文翻译项目:https://github.com/Kivy-CN/Stanford-CS-229-CN 中的凸优化部分的内容进行翻译学习。3. 凸函数凸优化的一个核心要素是凸函数的概念。定义 3.13.13.1 我们称一个函数f:Rn→Rf:R^n\rightarrow Rf:Rn→R是一个凸函数,需要满足其定义域(记作D(f)\mat...翻译 2019-03-17 15:25:57 · 5083 阅读 · 0 评论 -
凸优化学习(六)——一个简单的对偶实例
2 一个简单的对偶实例作为对偶的一个简单应用,在本节中,我们将展示如何形成一个简单凸优化问题的对偶问题。考虑如下的凸优化问题:minx∈R2x12+x2subjectto2x1+x2≥4x2≥1\begin{aligned}\min_{x\in R^2}\quad &x_1^2+x_2 \\subject\quad to \quad&2x_1+x_2\g...翻译 2019-03-19 21:45:13 · 2393 阅读 · 0 评论 -
使用Python语言进行机器学习工作流的实例分析
最近,在kaggle上找到一位大牛写的机器学习算法总结,感觉流程清晰,内容详实,因此翻译并分享下,由于作者不明原因将原文删除了,所以没法放上原文地址,文中主要以代码实践的方式展开各种算法,原理方面参考文中的地址连接(这是自己加上的),以便时查阅~目录目录使用Python语言进行机器学习工作流的实例分析1. 介绍2. 机器学习工作流程3 问题定义3.1 问题特征3.2 目标...翻译 2018-12-05 08:35:21 · 1106 阅读 · 1 评论 -
非监督特征学习与深度学习(十五)--------长短记忆(Long Short Term Memory,LSTM)
注:本文转载自https://github.com/exacity/simplified-deeplearning/blob/master/%E5%BE%AA%E7%8E%AF%E9%80%92%E5%BD%92%E7%BD%91%E7%BB%9C/LSTM.md 因为github上的makedown格式显示的不够完全,看的非常不方便,因此放到CSDN上比较好查阅学习。LST...转载 2018-09-12 16:31:44 · 4496 阅读 · 0 评论 -
非监督特征学习与深度学习(十四)--------循环神经网络
注:本文转载自https://github.com/exacity/simplified-deeplearning/blob/master/%E5%BE%AA%E7%8E%AF%E9%80%92%E5%BD%92%E7%BD%91%E7%BB%9C/RNN.md 因为github上的makedown格式显示的不够完全,看的非常不方便,因此放到CSDN上比较好查阅学习。循环神经...转载 2018-09-12 16:26:43 · 2296 阅读 · 0 评论 -
非监督特征学习与深度学习(十三)---- 自动编码器
注:本文转载自https://github.com/ysh329/Chinese-UFLDL-Tutorial 因为github上的makedown格式显示的不够完全,看的非常不方便,因此放到CSDN上比较好查阅学习。自动编码器(Autoencoders)注:本文大量参考旧版 UFLDL 中文翻译。 迄今为止,已经讲了神经网络在有监督学习方面的的应用。在有监督学习中,...转载 2018-07-14 23:21:48 · 2338 阅读 · 0 评论 -
使用Python进行层次聚类(三)——层次聚类簇间自然分割方法和评价方法
簇间自然分割方法今天,主要研究一下层次聚类在进行数据运算的时候,对数据结果进行自然簇分离而需要分析的API————inconsistent() 该函数是计算层次聚类不一致系数的,不一致系数越大,表明使用该阈值进行聚类的偏差越大。这样按照该不一致系数下的阈值进行聚类即相对于其他 情况下的阈值更不适合,因此可以进行自然簇的分离,即取阈值为该不一致系数下小一点即可。解释在这里下面介绍API的...原创 2018-06-16 08:47:19 · 9712 阅读 · 1 评论 -
使用Python进行层次聚类(二)——scipy中层次聚类的自定义距离度量问题
今天,总结一下如何使用层次聚类算法里面的自定义距离度量层次聚类上次已经总结过。 这次仅仅说明层次聚类的距离参数,这里的距离参数可以使用自定义函数。 我们进入该函数的文档页面 我们看到linkage的说明文档上面的函数scipy.cluster.hierarchy.linkage(y, method='single', metric='euclidean', optimal_orderin...原创 2018-04-06 15:36:44 · 9130 阅读 · 15 评论 -
使用Python进行层次聚类(一)——基本使用+主成分分析绘图观察结果+绘制热图
Python常用数据挖掘的工具包python对于数据处理非常有好的语言,比如常用的scikit-learn和scipy都可以用来进行机器学习和数据挖掘。同时为了使得结果可视化,Python还提供了非常好用的可视化工具包matplotlib和seaborn。使用Python进行层次聚类聚类对于机器学习和数据挖掘来说都是一个非常常用的的工具。其中层次聚类又以其显示效果和可解释效果好而在...原创 2018-01-22 21:30:45 · 50062 阅读 · 45 评论 -
多元高斯分布(三)——高斯过程
注意,本文内容来自于吴恩达老师cs229课堂笔记的中文翻译项目:https://github.com/Kivy-CN/Stanford-CS-229-CN 中部分的内容进行翻译学习。高斯过程介绍我们在本课程上半部分讨论的许多经典机器学习算法都符合以下模式:给定一组从未知分布中采样的独立同分布的示例训练样本集:求解一个凸优化问题,以确定数据单一的“最佳拟合”模型,并使用这个估计模型对...翻译 2019-08-28 14:50:36 · 4285 阅读 · 0 评论