弱理想
码龄12年
关注
提问 私信
  • 博客:58,315
    58,315
    总访问量
  • 12
    原创
  • 2,249,457
    排名
  • 2
    粉丝
  • 0
    铁粉

个人简介:喂马、砍柴、周游世界

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2012-11-30
博客简介:

fengyuanshen的专栏

查看详细资料
个人成就
  • 获得4次点赞
  • 内容获得1次评论
  • 获得17次收藏
创作历程
  • 23篇
    2015年
成就勋章
TA的专栏
  • 设计模式
    1篇
  • hadoop
    9篇
  • java
  • Linux
    6篇
  • hive
    5篇
  • hbase
  • pig
  • nosql
    1篇
  • 数据挖掘
  • spark
    2篇
  • Spark源码分析
  • nifi
兴趣领域 设置
  • 大数据
    hadoophivesparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

hive对科学计数法字符串的转换

Hive中int , float , double这些数值类型在存储大额度数字时,在前端展现上总是使用科学计数法来表示,例如:hive> select pow(10,8) from dual;OK1.0E8其实无论是普通的表示方式还是科学计数法表示,只是一个习惯问题,结果都是一样的。可是不能理解的是当把数值类型转化成字符串类型以后Hive竟然把数值转换成了科学计数法表示的字符串而非
转载
发布博客 2015.11.17 ·
16044 阅读 ·
2 点赞 ·
1 评论 ·
9 收藏

kettle连接hive错误

hive运行报错错误连接数据库 [hive] : org.pentaho.di.core.exception.KettleDatabaseException: Error occured while trying to connect to the databaseError connecting to database: (using class org.apache.hadoop.h
原创
发布博客 2015.11.09 ·
4196 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

shell 的位置参数

positional parameters 位置参数(positional parameters)指的是 shell 脚本的命令行参数(command line argument),同时也表示 shell 函数的函数参数。位置参数的名称是以单个整数来命名的。出于历史的原因,当这个整数大于 9 时(也就是包含两个或两个以上的阿拉伯数字),就应该使用花括号({})将其括起来。变
转载
发布博客 2015.11.04 ·
1572 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

crontab命令的使用

基本格式 : *  *  *  *  *  command 分 时 日 月 周 命令 第1列表示分钟1~59 每分钟用*或者 */1表示 第2列表示小时1~23(0表示0点) 第3列表示日期1~31 第4列表示月份1~12 第5列标识号星期0~6(0表示星期天) 第6列要运行的命令 crontab文件的一些例子: 30 21 * * * /usr/local
转载
发布博客 2015.11.03 ·
447 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark RDD的动作

Action:对数据集计算后返回一个数值value给驱动程序RDD支持的动作如下:1、reduce(func):通过函数func(接受两个参数,返回一个参数)聚集数据集中的所有元素。这个功能必须可交换且可关联的,从而可以正确地并行执行。2、collect():在驱动程序中,以数组的形式返回数据集的所有元素。通常在使用filter或者其他操作返回一个足够小的数据子集后再使用会比较
原创
发布博客 2015.10.26 ·
727 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Spark RDD的转换

RDD中的所有转换都是惰性的,只有当发生一个要求返回结果给Driver的动作时,这些转换才会真正运行。默认情况下,每一个转换过的RDD都会在它执行一个动作是被重新计算。可以使用persist(或者cache)方法,在内存中持久化一个RDD,在这种情况下,Spark将会在集群中保存相关元素,下次查询这个RDD时能更快访问它,也支持在磁盘上持久化数据集,或在集群间复制数据集。RDD支持的转换操作:
原创
发布博客 2015.10.26 ·
1482 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

CDH4 CM启动NameNode失败的问题,请求超时

今天上班cdh集群出现日志把系统磁盘空间占满的问题,cdh集群宕机,清理掉日志之后使用CM界面无法启动NameNode,提示请求超时,及下面的信息Service did not start successfully; not all of the required roles started: Service hdfs1 does not have sufficient running Nam
原创
发布博客 2015.09.21 ·
1714 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive删除表失败

删除hive表报错,报错信息如上解决办法: 修改hive数据库编码:mysql> alter database hivedb character set latin1;然后重启hive metastore和hive server就可以了
原创
发布博客 2015.09.07 ·
2347 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive Metastore canary创建数据库失败

今天上班时打开CM管理界面,看到Hive Metastore Server 运行状况 不良:查看日志Retrying creating default database after error: Unable to open a test connection to the given database. JDBC url = jdbc:mysql://loca
原创
发布博客 2015.08.20 ·
19579 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

解析Cloudera Manager(CDH5)内部结构、功能包括配置文件、目录位置等

问题导读 1.CM的安装目录在什么位置?2.hadoop配置文件在什么位置?3.Cloudera manager运行所需要的信息存在什么位置?4.CM结构和功能是什么? ====================================================1. 相关目录 ? /var/log/cloudera-scm-installer : 安装日
转载
发布博客 2015.08.10 ·
2804 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

linux命令行下的ftp 多文件下载和目录下载

目标ftp服务器是一个非标准端口的ftp 1.通过shell登录#ftp    //shell下输入ftp命令,进入到ftp提示符>open IP  PORT   //IP ,PORT对应为服务器的IP和端口号或者直接使用一条语句#ftp  IP  PORT  2.多文件下载(对目录无效)如:下载目录下的所有文件(子目录是无法下载下来的)>mget * 
转载
发布博客 2015.06.30 ·
772 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

linux下常用FTP命令 上传下载文件

1. 连接ftp服务器格式:ftp [hostname| ip-address]a)在linux命令行下输入:ftp 192.168.1.1b)服务器询问你用户名和密码,分别输入用户名和相应密码,待认证通过即可。2. 下载文件下载文件通常用get和mget这两条命令。a) get 格式:get [remote-file] [local-fil
转载
发布博客 2015.06.30 ·
695 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MapReduce获取键的分布情况

怎样建立一个一系列分布非常均匀的分区?通过对键空间进行采样,就可较为均匀的划分数据集。采样的核心思想是只查看一小部分键,获得键的近似分布,并由此构建分区。Hadoop已经内置了若干采样器,不需要用户自己编写。InputSampler类实现了Sampler接口,该接口唯一成员方法(getSampler)有两个输入参数(一个InputFormat对象和一个Job对象),返回一系列样本键:public i
原创
发布博客 2015.06.12 ·
409 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Redis3.0集群部署文档(centos系统)

(要让集群正常工作至少需要3个主节点,在这里我们要创建6个redis节点,其中三个为主节点,三个为从节点,对应的redis节点的ip和端口对应关系如下)192.168.1.160:7000192.168.1.160:7001192.168.1.160:7002192.168.1.160:7003192.168.1.160:7004192.168.1.160:70051:下载redis。官网下载3.0
原创
发布博客 2015.06.12 ·
546 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

sed命令的基本用法

**sed(stream editor)是流编辑器,可对文本文件和标准输入进行编辑。sed只是对缓存区中的原始文件的副本进行编辑,并不编辑原始的文件,如果需要保存改动内容,可以选择使用重定向和w编辑命令。**调用sed有三种方法:1.在shell命令行输入命令调用sed,格式为: sed [选项] ‘sed命令’ 输入文件2.将sed命令插入脚本文件后,然后通过sed命令调用它,格式为:(不
原创
发布博客 2015.05.19 ·
508 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive文件存储格式

hive在建表是,可以通过‘STORED AS FILE_FORMAT’ 指定存储文件格式 例如:[plain] view plaincopy 01.> CREATE EXTERNAL TABLE MYTEST(num INT, name STRING) 02.> ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’ 03.> STORED AS T
转载
发布博客 2015.05.03 ·
456 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Redis安装

 安装1/到官网下载最新stable版2/解压源码并进入目录      tar -zxvf redis-2.8.19.tar.gz -C ./redis-src/3/ makemake PREFIX=/usr/local/redis install6/拷贝一份配置文件到安装目录下切换到源码目录,里面有一份配置文件 redis.conf,然后将其拷贝到安装
原创
发布博客 2015.05.03 ·
350 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hadoop2.4.1集群环境搭建

1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系 ######注意######如果你们公司是租用的服务器或是使用的云主机(如华为用主机、阿里云主机等) /etc/hosts里面要配置的是内网IP地址和主机名的映射关系 4.关闭防火墙5.ssh免登陆 6.安装JDK,配置环境变量等集群规划: 主机名  IP    安装的软件     运行
原创
发布博客 2015.05.01 ·
425 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

awk命令详解

简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本。awk其名称得自于它的创始人 Alfr
转载
发布博客 2015.03.22 ·
385 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hadoop2 hdfs命令

Hadoop2 HDFS shell命令 1. hdfs dfs -appendToFile ...  可同时上传多个文件到HDFS里面 2.  hdfs dfs -cat URI [URI ...] 查看文件内容 3. hdfs dfs -chgrp [-R] GROUP URI [URI ...] 修改文件所属组 4.  hdfs df
转载
发布博客 2015.02.18 ·
659 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多