关闭

Ubuntu下Spark单机版(Standalone)安装

一、安装JDK 二、安装Scala 三、安装Spark...
阅读(75) 评论(0)

统计量MAD

MAD(Median absolute deviation, 中位数绝对偏差)是单变量数据集中样本差异性的稳健度量。mad是一个健壮的统计量,对于数据集中异常值的处理比标准差更具有弹性,可以大大减少异常值对于数据集的影响。...
阅读(902) 评论(0)

PCA数学原理

PCA(主成分分析)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。...
阅读(205) 评论(0)

Spring Boot:建立一个RESTful Web Service

建立一个基于Spring的RESTful Web Service...
阅读(849) 评论(0)

连续属性离散化

离散化技术分类连续属性的离散化方法也可以被称为分箱法,即将一组连续的值根据一定的规则分别放到其术语的集合中。 本文介绍了几种监督离散化和非监督离散化的方法。...
阅读(2279) 评论(0)

决策树学习笔记

决策树是依托于决策一步步建立起来的树形数据模型。 本文主要讲解了建立决策树时的节点分裂、剪枝等问题。...
阅读(687) 评论(0)

用ggplot2为时间序列数据绘图

在R中用ggplot()函数为时间序列类型的数据绘图时,发现ggplot()无法识别ts类型的数据,这时候就可以先将时间序列类型拆成数据框类型然后在绘图。...
阅读(1383) 评论(0)

最小二乘法

在现实生活中存在着大量的数量之间的相关关系,比如人的身高和体重,钻石的价格和体积、克拉数,房价和房屋位置、面积、朝向等等。我们可以借助统计学中的回归模型,通过一些可以观测到的值(观测变量、自变量)来预测另外一些不容易观测到的值(响应变量、自变量)。...
阅读(399) 评论(0)

时间序列分析1.基本数学概念

本文主要介绍时间序列分析中会用到的一些数学知识。...
阅读(513) 评论(0)

R语言学习笔记

本文主要是自己在学习和使用R语言时对于一些不太熟悉的内容做一下记录,记录会随着学习和工作中遇到的问题而增加。...
阅读(435) 评论(0)

Windows下github使用说明

Windows下github使用说明...
阅读(370) 评论(0)

是什么阻碍了你的机器学习目标?

我收到过许多想开始学习机器学习的开发者和学生的邮件。我问他们的第一个问题是:是什么阻止了你开始学习? 我试图找出让他们挣扎的核心原因,大多数时候都是一些自我限制的想法在阻止他们前进。 这篇文章里我想谈谈一些在我和学生的邮件来往和讨论中发现的一些自我限制的想法。也许在这些想法里面你也会发现自己的影子。如果这样的话,我希望你能挑战自己的这些设想。 自我限制的想法 自我限制的想法...
阅读(315) 评论(0)

Eclipse增加Maven Archetype Catalogs

Eclipse安装了Maven的插件以后就可以创建Maven Project了,选择file->new->...
阅读(2557) 评论(0)

Ubuntu下Maven+Eclipse+Jersey开发配置

本文主要参考了Oracle Java社区的...
阅读(1332) 评论(0)

Ubuntu 14.04安装配置JDK+Eclipse+Tomcat

一、安装JDK 去官网下载最新版的JDK,...
阅读(1019) 评论(0)
35条 共3页1 2 3 下一页 尾页
    个人资料
    • 访问:27608次
    • 积分:605
    • 等级:
    • 排名:千里之外
    • 原创:30篇
    • 转载:4篇
    • 译文:1篇
    • 评论:0条