等你628
码龄12年
关注
提问 私信
  • 博客:53,153
    53,153
    总访问量
  • 18
    原创
  • 942,909
    排名
  • 7
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2013-04-03
博客简介:

u010143774的博客

查看详细资料
个人成就
  • 获得11次点赞
  • 内容获得6次评论
  • 获得22次收藏
创作历程
  • 23篇
    2016年
成就勋章
TA的专栏
  • Hadoop
    4篇
  • java
    1篇
  • ubuntu
    6篇
  • hive
    7篇
  • hbase
    4篇
  • spark
    1篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

spark1.2配置

1、配置spark-env.shexport JAVA_HOME=/usr/jdk1.8export SCALA_HOME=/usr/scalaexport SPARK_MASTER_IP=192.168.209.131export SPARK_WORKER_MEMORY=1gexport MASTER=spark://192.168.209.131:7077export HADOOP_H
原创
发布博客 2016.07.07 ·
508 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HBase的数据导入方式

前言:  作为Hadoop生态系统中重要的一员, HBase作为分布式列式存储, 在线实时处理的特性, 备受瞩目, 将来能在很多应用场景, 取代传统关系型数据库的江湖地位. 本篇博文重点讲解HBase的数据导入, 描述三种方式, Client API, Bulkload, 以及Hive Over HBase.*). Client API实现 借助HBase的Client API来导入, 是最简易学
转载
发布博客 2016.07.06 ·
681 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HBase的RowKey设计

1 概述 HBase是一个分布式的、面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式。既然HBase是采用KeyValue的列存储,那Rowkey就是KeyValue的Key了,表示唯一一行。Rowkey也是一段二进制码流,最大长度为64KB,内容可以由使用的用户自定义。数据加载时,一般也是根据Rowkey的二进制序由小到
转载
发布博客 2016.07.06 ·
689 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hbase系统架构及数据结构

HBase中的表一般有这样的特点:1 大:一个表可以有上亿行,上百万列2 面向列:面向列(族)的存储和权限控制,列(族)独立检索。3 稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。下面一幅图是Hbase在Hadoop Ecosystem中的位置。二、逻辑视图HBase以表的形式存储数
转载
发布博客 2016.07.05 ·
663 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hbase1.2安装配置

1)下载安装包,解压到合适位置 2)配置相关文件 1、配置hbase-env.sh文件。# The java implementation to use.export JAVA_HOME=/usr/java/jdk1.7.0/# The maximum amount of heap to use. Default is left to JVM default.export HBAS
原创
发布博客 2016.07.05 ·
966 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive小结

1)hive加载数据hive加载本地数据和和hdfs数据区别 加载外部表可以为本地文件,加载内部表,要把数据加载到hdfs上 2)hive中索引 索引 deferred 延期的 compact 紧压的 3)hive中数据格式 hive可以自定义文件格式。textfile,sequencefile 数据格式: avro file orc file ORC File,它的全名是Op
原创
发布博客 2016.07.03 ·
460 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive 自定义函数

1、首先定义函数 2、将函数添加到hive中
原创
发布博客 2016.06.22 ·
907 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

对Hive的大表进行动态分区

分区是在处理大型事实表时常用的方法。分区的好处在于缩小查询扫描范围,从而提高速度。分区分为两种:静态分区static partition和动态分区dynamic partition。静态分区和动态分区的区别在于导入数据时,是手动输入分区名称,还是通过数据来判断数据分区。对于大数据批量导入来说,显然采用动态分区更为简单方便。 对现存hive表的分区 首先,新建一张我们需要的分区以后的表create
原创
发布博客 2016.06.22 ·
804 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive中的InputFormat、OutputFormat与SerDe

Hive中,默认使用的是TextInputFormat,一行表示一条记录。在每条记录(一行中),默认使用^A分割各个字段。在有些时候,我们往往面对多行,结构化的文档,并需要将其导入Hive处理,此时,就需要自定义InputFormat、OutputFormat,以及SerDe了。首先来理清这三者之间的关系,我们直接引用Hive官方说法:SerDe is a short name for “Seria
原创
发布博客 2016.06.22 ·
3712 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Ubuntu下Hive配置(MySQL数据库的安装方式)

Hive只在一个节点上安装即可一、安装MySQL•Ubuntu 采用apt-get安装 •sudo apt-get install mysql-server •建立数据库hive •create database hive •创建hive用户,并授权 •grant all on hive.* to hive@’%’ identified by ‘hive’; •flush privi
原创
发布博客 2016.06.22 ·
2469 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

hiveQL详解

一、创建表 1.创建内部表 //create & load create table tab_ip(id int,name string,ip string,country string) row format delimited fields terminated by ‘,’ stored as textfile; 2、创建外部表 //exter
原创
发布博客 2016.06.22 ·
643 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive体系结构

Hive是一种建立在hadoop上的数据仓库架构,可以用来进行数据ETL,并对存储在hdfs中的数据进行查询、分析和管理。 1、Hive架构与基本组成 下面是Hive的架构图。 图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hi
原创
发布博客 2016.06.22 ·
2859 阅读 ·
1 点赞 ·
1 评论 ·
2 收藏

ubuntu查看用户分组

查看用户分组:
原创
发布博客 2016.06.15 ·
3504 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

ubuntu下安装程序的三种方法

引言在ubuntu当中,安装应用程序我所知道的有三种方法,分别是apt-get,dpkg安装deb和make install安装源码包三种。下面针对每一种方法各举例来说明。apt-get方法 使用apt-get install来安装应用程序算是最常见的一种安装方法了,比如我要安装build-essential这个软件,使用以下,他会帮我把所有的依赖包都一起安装了。 sudo apt-get in
原创
发布博客 2016.06.15 ·
627 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Ubuntu两台节点无密码登录

在第一台机器上输入下面两条命令 ssh-keygen -t dsa -P ” -f ~/.ssh/id_dsascp ~/.ssh/id_dsa.pub hadoop:~/.ssh 备注:其中hadoop为第二台机器的用户名 在第二台机器上输入下面命令 cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
原创
发布博客 2016.06.15 ·
441 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ubuntu下配置环境变量

在用户主目录下,有一个 .bashrc 文件,编辑该文件: vi /.bashrc在最后边加入需要设置变量的shell语句,例如:exportPATH= /mypath/bin:vi ~/.bashrc 在最后边加入需要设置变量的shell语句,例如: export PATH=~/mypath/bin:PATH 该方式添加的变量只能当前用户使用。用命令:source ~/.bashrc
原创
发布博客 2016.06.15 ·
418 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ubuntu下is not in the sudoers file 解决方案

如果当前用户下出现,可以切换到另外一个有该权限的用户,在该用户下输入: sudo usermod -a -G adm water3 sudo usermod -a -G sudo water3 备注:其中water3为出现问题的用户
原创
发布博客 2016.06.15 ·
626 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ubuntu常用命令汇总

查看系统进程的信息: ps -a jps 查看java进程 top 查看进程的实时情况 free -m 查看内存使用情况网络信息: 查看所有已建立连接的信息 netstat -antp 查看所有监听端口的信息: netstat -lntp 查看网络接口信息: ifconfig系统升级: sudo apt-get update临时重启一个服务:/etc/init.d/服务名
原创
发布博客 2016.06.15 ·
527 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Ubuntu14.04安装搜狗输入法

难得搜狗输入法支持ubuntu,果断下载尝试一把。 官网:http://pinyin.sogou.com/linux/ 官网教程:http://pinyin.sogou.com/linux/help.php 按照教程上面的说法,对于ubuntu14.04的系统安装搜狗输入法是异常的简单。 1. 下载deb包。 2.双击文件即可安装。 按照上面的流程走了一遍,提示安装成功。 首先你得安装
原创
发布博客 2016.06.15 ·
653 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop中FileInputFormat源码解析

基于Hadoop2.6.0 //生成文件list,放进filesplits public List getSplits(JobContext job) throws IOException { Stopwatch sw = new Stopwatch().start(); long minSize = Math.max(getFormatMinSplitSize(), ge
原创
发布博客 2016.05.22 ·
1201 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多