- 博客(8)
- 资源 (2)
- 收藏
- 关注
原创 HBase运行日志记录
1.下载stable版本,我用的是hbase-1.0.1.1-bin.tar.gz 解压 tar -zxvf hbase-1.0.1.1-bin.tar.gz2. 修改环境变量 vi ~/.bash_profile export HBASE_HOME=/home/hadoop/tools/hbase-1.0.1.1 export PATH=$PATH:$HA
2015-08-28 14:58:45 3316 2
原创 Hive 查询
HIVE是一个数据仓库系统,这就意味着它可以不支持普通数据库的CRUD操作。CRUD应该在导入HIVE数据仓库前完成。而且鉴于 hdfs 的特点,其并不能高效的支持流式访问,访问都是以遍历整个文件块的方式。hive 0.7 之后已经支持索引,但是很弱,尚没有成熟的线上方案。关于 hive 的删除和更新有如下办法:一、行级的更新和删除:通过 hbase 进行。数据保存在HBase
2015-08-28 14:52:18 560
原创 Hive文件格式
数据库是用来保存数据的,废话,那么数据是怎么保存起来的,肯定每种数据库都有自己的存储格式。商业的数据库外人都不知道里面是怎么保存的。我们知道Mysql就有好几种不同的引擎,如ISAM、MyISAM、HEAP、InnoDB和Berkley(BDB)等等。 Hive 支持多种格式的文件,包括文本,SeqFile,RCFile,AvroFile,ORCFile ParquetFile等,还可以自定义文件
2015-08-28 11:08:15 2099
原创 Hive运行
Hive 是什么之类的就不说了。下面说说简单的安装过程。其实和hadoop很类似,毕竟是一家人嘛。1. 下载,解压apache-hive-1.2.1-bin.tar.gz (这是本人用的版本) tar -zxvf apache-hive-1.2.1-bin.tar.gz2. 设置环境变量 vi ~/.bash_profile (添加两行
2015-08-28 10:23:23 453
原创 Hadoop基础之---配置
Hadoop基础之---配置话说Hadoop的配置文件是相当多的,这里列出一些注意的,常用的。为什么要这么多配置,,配置就是为了方便配置,废话。因为很多时候代码里面写了很多Magic Number或者固定的路径或者固定的策略,而不同的环境,不同的需求可能会与默认的不同,所以需要修改,就放到配置文件里面,这样就可以随心所欲的设置了,而不用重新修改代码编译。1.hadoop-env
2015-08-21 14:53:23 1437
原创 Hadoop基础之---集群搭建
在VM上搭建Hadoop,是一件鸡冻又痛苦的事情。说到鸡冻,是想一睹Linux的芳容,一睹Hadoop的神奇,不过这个工程也是有不少各种坑的,一不小心就掉坑里面了,半天还起不来。咱也来炫耀一回,把整个过程的要点记录下来; 1. 下载一个VM工具 有VMWare或者VirtualBox(Oracle的免费的)下载一个操作系统的ISO文件,例如centos,ubuntu,免费的这
2015-08-13 15:50:38 1238
原创 MongoDB-3运行笔记
MongoDB 是神马,暂且不表,可以自己搜搜。最近试试3.0版本与以前的版本有不少变化 ,写下备忘。一。基本操作1.下载安装并启动本人安装在 D:\app\mongo\bin (可以添加到Path中)在cmd运行mongod.exe --dbpath d:\app\mongo\data --port 1234 启动另外一个cmdmongo.ex
2015-08-07 17:02:05 564
原创 相关系数计算
Pearson(皮尔逊), Kendall(肯德尔)和Spearman(斯伯曼/斯皮尔曼)三种相关分析方法具体公式就不Copy了,一般认为:使用Pearson积差相关系数: 两个连续变量间呈线性相关时; 数据呈现正态分布时;Spearman和Kendall相关系数: 对分类变量的数据或变量值的分布明显非正态或分布不明时,计算时先对离散数据
2015-08-06 17:40:12 987
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人