- 博客(23)
- 资源 (1)
- 收藏
- 关注
转载 hive对科学计数法字符串的转换
Hive中int , float , double这些数值类型在存储大额度数字时,在前端展现上总是使用科学计数法来表示,例如:hive> select pow(10,8) from dual;OK1.0E8其实无论是普通的表示方式还是科学计数法表示,只是一个习惯问题,结果都是一样的。可是不能理解的是当把数值类型转化成字符串类型以后Hive竟然把数值转换成了科学计数法表示的字符串而非
2015-11-17 10:38:40 15495 1
原创 kettle连接hive错误
hive运行报错错误连接数据库 [hive] : org.pentaho.di.core.exception.KettleDatabaseException: Error occured while trying to connect to the databaseError connecting to database: (using class org.apache.hadoop.h
2015-11-09 11:33:53 4029
转载 shell 的位置参数
positional parameters 位置参数(positional parameters)指的是 shell 脚本的命令行参数(command line argument),同时也表示 shell 函数的函数参数。位置参数的名称是以单个整数来命名的。出于历史的原因,当这个整数大于 9 时(也就是包含两个或两个以上的阿拉伯数字),就应该使用花括号({})将其括起来。变
2015-11-04 16:48:52 1420
转载 crontab命令的使用
基本格式 : * * * * * command 分 时 日 月 周 命令 第1列表示分钟1~59 每分钟用*或者 */1表示 第2列表示小时1~23(0表示0点) 第3列表示日期1~31 第4列表示月份1~12 第5列标识号星期0~6(0表示星期天) 第6列要运行的命令 crontab文件的一些例子: 30 21 * * * /usr/local
2015-11-03 14:58:56 359
原创 Spark RDD的动作
Action:对数据集计算后返回一个数值value给驱动程序RDD支持的动作如下:1、reduce(func):通过函数func(接受两个参数,返回一个参数)聚集数据集中的所有元素。这个功能必须可交换且可关联的,从而可以正确地并行执行。2、collect():在驱动程序中,以数组的形式返回数据集的所有元素。通常在使用filter或者其他操作返回一个足够小的数据子集后再使用会比较
2015-10-26 14:56:14 649
原创 Spark RDD的转换
RDD中的所有转换都是惰性的,只有当发生一个要求返回结果给Driver的动作时,这些转换才会真正运行。默认情况下,每一个转换过的RDD都会在它执行一个动作是被重新计算。可以使用persist(或者cache)方法,在内存中持久化一个RDD,在这种情况下,Spark将会在集群中保存相关元素,下次查询这个RDD时能更快访问它,也支持在磁盘上持久化数据集,或在集群间复制数据集。RDD支持的转换操作:
2015-10-26 11:35:31 1404
原创 CDH4 CM启动NameNode失败的问题,请求超时
今天上班cdh集群出现日志把系统磁盘空间占满的问题,cdh集群宕机,清理掉日志之后使用CM界面无法启动NameNode,提示请求超时,及下面的信息Service did not start successfully; not all of the required roles started: Service hdfs1 does not have sufficient running Nam
2015-09-21 14:06:52 1635
原创 hive删除表失败
删除hive表报错,报错信息如上解决办法: 修改hive数据库编码:mysql> alter database hivedb character set latin1;然后重启hive metastore和hive server就可以了
2015-09-07 11:54:25 2243
原创 Hive Metastore canary创建数据库失败
今天上班时打开CM管理界面,看到Hive Metastore Server 运行状况 不良:查看日志Retrying creating default database after error: Unable to open a test connection to the given database. JDBC url = jdbc:mysql://loca
2015-08-20 10:17:22 19278
转载 解析Cloudera Manager(CDH5)内部结构、功能包括配置文件、目录位置等
问题导读 1.CM的安装目录在什么位置?2.hadoop配置文件在什么位置?3.Cloudera manager运行所需要的信息存在什么位置?4.CM结构和功能是什么? ====================================================1. 相关目录 ? /var/log/cloudera-scm-installer : 安装日
2015-08-10 21:14:40 2749
转载 linux命令行下的ftp 多文件下载和目录下载
目标ftp服务器是一个非标准端口的ftp 1.通过shell登录#ftp //shell下输入ftp命令,进入到ftp提示符>open IP PORT //IP ,PORT对应为服务器的IP和端口号或者直接使用一条语句#ftp IP PORT 2.多文件下载(对目录无效)如:下载目录下的所有文件(子目录是无法下载下来的)>mget *
2015-06-30 10:33:33 691
转载 linux下常用FTP命令 上传下载文件
1. 连接ftp服务器格式:ftp [hostname| ip-address]a)在linux命令行下输入:ftp 192.168.1.1b)服务器询问你用户名和密码,分别输入用户名和相应密码,待认证通过即可。2. 下载文件下载文件通常用get和mget这两条命令。a) get 格式:get [remote-file] [local-fil
2015-06-30 10:31:02 613
原创 MapReduce获取键的分布情况
怎样建立一个一系列分布非常均匀的分区?通过对键空间进行采样,就可较为均匀的划分数据集。采样的核心思想是只查看一小部分键,获得键的近似分布,并由此构建分区。Hadoop已经内置了若干采样器,不需要用户自己编写。InputSampler类实现了Sampler接口,该接口唯一成员方法(getSampler)有两个输入参数(一个InputFormat对象和一个Job对象),返回一系列样本键:public i
2015-06-12 14:20:34 369
原创 Redis3.0集群部署文档(centos系统)
(要让集群正常工作至少需要3个主节点,在这里我们要创建6个redis节点,其中三个为主节点,三个为从节点,对应的redis节点的ip和端口对应关系如下)192.168.1.160:7000192.168.1.160:7001192.168.1.160:7002192.168.1.160:7003192.168.1.160:7004192.168.1.160:70051:下载redis。官网下载3.0
2015-06-12 10:21:24 518
原创 sed命令的基本用法
**sed(stream editor)是流编辑器,可对文本文件和标准输入进行编辑。sed只是对缓存区中的原始文件的副本进行编辑,并不编辑原始的文件,如果需要保存改动内容,可以选择使用重定向和w编辑命令。**调用sed有三种方法:1.在shell命令行输入命令调用sed,格式为: sed [选项] ‘sed命令’ 输入文件2.将sed命令插入脚本文件后,然后通过sed命令调用它,格式为:(不
2015-05-19 16:17:05 455
转载 hive文件存储格式
hive在建表是,可以通过‘STORED AS FILE_FORMAT’ 指定存储文件格式 例如:[plain] view plaincopy 01.> CREATE EXTERNAL TABLE MYTEST(num INT, name STRING) 02.> ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’ 03.> STORED AS T
2015-05-03 22:04:05 424
原创 Redis安装
安装1/到官网下载最新stable版2/解压源码并进入目录 tar -zxvf redis-2.8.19.tar.gz -C ./redis-src/3/ makemake PREFIX=/usr/local/redis install6/拷贝一份配置文件到安装目录下切换到源码目录,里面有一份配置文件 redis.conf,然后将其拷贝到安装
2015-05-03 12:49:03 325
原创 hadoop2.4.1集群环境搭建
1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系 ######注意######如果你们公司是租用的服务器或是使用的云主机(如华为用主机、阿里云主机等) /etc/hosts里面要配置的是内网IP地址和主机名的映射关系 4.关闭防火墙5.ssh免登陆 6.安装JDK,配置环境变量等集群规划: 主机名 IP 安装的软件 运行
2015-05-01 19:21:05 400
转载 awk命令详解
简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本。awk其名称得自于它的创始人 Alfr
2015-03-22 22:21:22 342
转载 hadoop2 hdfs命令
Hadoop2 HDFS shell命令 1. hdfs dfs -appendToFile ... 可同时上传多个文件到HDFS里面 2. hdfs dfs -cat URI [URI ...] 查看文件内容 3. hdfs dfs -chgrp [-R] GROUP URI [URI ...] 修改文件所属组 4. hdfs df
2015-02-18 15:15:51 632
原创 MapReduce2.0原理,基本架构面试相关
一、MapReduce基本概念的理解1、HDFS block和MapReduce split之间的联系?两者之间是否存在严格的对应关系?答:Block:HDFS中最小的数据存储单位,默认是64M;Split:MapReduce中最小的计算单元,默认与Block一一对应。两者的对应关系是任意的,可有用户控制。2、假设HDFS的block大小为64M,采用TextInputFormat
2015-02-18 12:28:04 1132
转载 Hadoop2.6.0在Ubuntu Kylin14.04上的配置
环境: 系统:Ubuntu Kylin 14.04LTS版本(不得不说,相比原始的系统,这个中国定制版麒麟实在是好看和好用多了) Hadoop 2.6.0 jdk1.8.0_25步骤: 1. 创建Hadoop用户 创建用户1sudo useradd hadoop
2015-02-17 17:53:18 421
转载 Java设计模式--工厂模式
一、工厂模式的简介: 工厂模式的作用:为创建对象提供过渡接口,以便将创建对象的具体过程屏蔽起来,达到提高灵活性的目的。 工厂模式分类: 1)简单工厂模式(Simple Factory):不利于产生系列产品 2)工厂方法模式(Factory Method):又称为多形性工厂; 3)抽象工厂模式(Abstract Factory):又称为工具箱,产生产品族,但不利于产生新的
2015-01-28 10:05:35 373
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人