![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据处理
明天去哪
博观而约取,厚积而薄发.每天坚持写代码
展开
-
Hadoop入门
安装 linux环境 jdk(hadoop使用java写的) 配置hadoop下载hadoop, wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz vim conf/hadoop-env.sh row 9改为: export JAVA_HOME=/usr/lib/jvm/ja原创 2016-05-18 22:42:44 · 322 阅读 · 0 评论 -
R语言预备及安装
简介 R可以完成数据分析设计的几乎所有步骤 数据获取 数据清理 数据分析 结果报告 发布结果 竞赛网站:https://www.kaggle.com 发布结果的平台: http://rpubs.com/ 数据分析 探索性数据分析 了解数据 作图 统计推断(基于数据得出正式结论的过程) 原因 数据存在不确定性(噪音) 可以给出结论+结论出错的概率 回归分析(主要针对线性回归分析) 通过模型原创 2016-05-19 00:17:17 · 553 阅读 · 0 评论 -
R语言数据结构
对象的基本类型 字符(character) x <- “sjming” 数值(numeric;real numbers) x <- 3.14 整数(integer) x <- 2L 复数(complex) x <- 1+2i 逻辑(logical)(TF必须大写) x <- TRUE 常用方法 查看对象类型:class(x) 大小写敏感 对象的属性 名称 维度 类型 长度 向量 创建 #原创 2016-05-19 10:08:37 · 523 阅读 · 0 评论 -
R语言操纵数据
构造子集 基本方法 [], 提取一个或多个类型相同的元素 [[]], 从列表或数据框中提取元素 $, 按名字从列表或数据框中提取元素 矩阵的子集 x <- matrix(1:6, nrow=2, ncol=3) x[1,2] # [1] 3 x[1,] # [1] 1 3 5 x[, 1] # [1] 1 2 x[2, c(1, 3)] class(x[1,2]) # "integer" x[1,原创 2016-05-19 13:49:55 · 426 阅读 · 0 评论 -
R语言之数据可视化
完整的数据分析流程 定义研究问题,定义理想数据集,确定能够获取什么数据,获取数据,清理数据 探索性分析,统计分析/建模(机器学习)等 解释/交流结果(数据可视化),挑战结果,书写报告(Reproducible原则) 假设驱动 数据驱动 了解数据特征 数据基础观测,变量,数据矩阵 行叫做一次观测,列叫做一个变量值变量的类型 数值(连续, 离散) 分类(无序, 有序) 变量间的原创 2016-05-21 09:50:17 · 1704 阅读 · 0 评论