自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (2)
  • 收藏
  • 关注

原创 HBase运行日志记录

1.下载stable版本,我用的是hbase-1.0.1.1-bin.tar.gz   解压  tar -zxvf hbase-1.0.1.1-bin.tar.gz2. 修改环境变量 vi  ~/.bash_profile    export HBASE_HOME=/home/hadoop/tools/hbase-1.0.1.1    export PATH=$PATH:$HA

2015-08-28 14:58:45 3316 2

原创 Hive 查询

HIVE是一个数据仓库系统,这就意味着它可以不支持普通数据库的CRUD操作。CRUD应该在导入HIVE数据仓库前完成。而且鉴于 hdfs 的特点,其并不能高效的支持流式访问,访问都是以遍历整个文件块的方式。hive 0.7 之后已经支持索引,但是很弱,尚没有成熟的线上方案。关于 hive 的删除和更新有如下办法:一、行级的更新和删除:通过 hbase 进行。数据保存在HBase

2015-08-28 14:52:18 560

原创 Hive文件格式

数据库是用来保存数据的,废话,那么数据是怎么保存起来的,肯定每种数据库都有自己的存储格式。商业的数据库外人都不知道里面是怎么保存的。我们知道Mysql就有好几种不同的引擎,如ISAM、MyISAM、HEAP、InnoDB和Berkley(BDB)等等。 Hive 支持多种格式的文件,包括文本,SeqFile,RCFile,AvroFile,ORCFile ParquetFile等,还可以自定义文件

2015-08-28 11:08:15 2099

原创 Hive运行

Hive 是什么之类的就不说了。下面说说简单的安装过程。其实和hadoop很类似,毕竟是一家人嘛。1. 下载,解压apache-hive-1.2.1-bin.tar.gz (这是本人用的版本)       tar -zxvf  apache-hive-1.2.1-bin.tar.gz2.  设置环境变量        vi  ~/.bash_profile    (添加两行

2015-08-28 10:23:23 453

原创 Hadoop基础之---配置

Hadoop基础之---配置话说Hadoop的配置文件是相当多的,这里列出一些注意的,常用的。为什么要这么多配置,,配置就是为了方便配置,废话。因为很多时候代码里面写了很多Magic Number或者固定的路径或者固定的策略,而不同的环境,不同的需求可能会与默认的不同,所以需要修改,就放到配置文件里面,这样就可以随心所欲的设置了,而不用重新修改代码编译。1.hadoop-env

2015-08-21 14:53:23 1437

原创 Hadoop基础之---集群搭建

在VM上搭建Hadoop,是一件鸡冻又痛苦的事情。说到鸡冻,是想一睹Linux的芳容,一睹Hadoop的神奇,不过这个工程也是有不少各种坑的,一不小心就掉坑里面了,半天还起不来。咱也来炫耀一回,把整个过程的要点记录下来; 1.  下载一个VM工具 有VMWare或者VirtualBox(Oracle的免费的)下载一个操作系统的ISO文件,例如centos,ubuntu,免费的这

2015-08-13 15:50:38 1238

原创 MongoDB-3运行笔记

MongoDB 是神马,暂且不表,可以自己搜搜。最近试试3.0版本与以前的版本有不少变化 ,写下备忘。一。基本操作1.下载安装并启动本人安装在 D:\app\mongo\bin (可以添加到Path中)在cmd运行mongod.exe --dbpath d:\app\mongo\data --port 1234 启动另外一个cmdmongo.ex

2015-08-07 17:02:05 564

原创 相关系数计算

Pearson(皮尔逊), Kendall(肯德尔)和Spearman(斯伯曼/斯皮尔曼)三种相关分析方法具体公式就不Copy了,一般认为:使用Pearson积差相关系数:      两个连续变量间呈线性相关时;      数据呈现正态分布时;Spearman和Kendall相关系数:       对分类变量的数据或变量值的分布明显非正态或分布不明时,计算时先对离散数据

2015-08-06 17:40:12 987

数据分析师成长之路1218.pdf

数据分析师成长的必由之路,需要哪些技能,知识储备,数据怎么分析,怎么提升技巧,听听大咖的介绍。

2019-06-15

R统计语言教程.pdf

R统计语言基础教程,涵盖基础语法规则,基础数据操作,统计基础知识,基本算法操作。对于正在学习R的同学,是难得的入门教程。

2019-05-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除