自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(18)
  • 收藏
  • 关注

转载 将博客搬至CSDN

https://blog.csdn.net/bingdianone 转载于:https://my.oschina.net/u/4005872/blog/3102854

2019-09-06 13:49:00 136

转载 8、Hive的元数据

<property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://192.168.232.8:3306/hadoop?createDatabase...

2019-04-20 13:40:00 200

转载 Hive SQL的执行流程

执行计划 执行计划官网介绍 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Explain select select a.id, a.city, a.cate from access a whe...

2019-04-20 10:40:00 325

转载 7、hive的UDF使用

UDF: one-to-one row mapping : upper substr【进来一行出去一行】 UDAF: Aggregation Many-to-one row mapping 比如sum/min【进来多行出去一行】 UDTF: Table-generating one-...

2019-04-18 14:09:00 335

转载 6、hive中的file_format

行存储和列存储在hdfs中的区别 hive中的file_format 可以使用set hive.default.fileformat来查看和设置格式 set hive.default.fileformat 默认是TextFile file_format:【查看hive官方文档】 ...

2019-04-17 15:39:00 1376

转载 hue-3.9-cdh-5.7.0安装

前置依赖 [root@hadoop etc]# yum -y install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libtidy libxml2-devel libxslt-devel...

2019-04-15 10:04:00 225

转载 hadoop配置支持LZO压缩格式

简介 安装lzo lzo并不是linux系统原生支持,所以需要下载安装软件包。这里至少需要安装3个软件包:lzo, lzop, hadoop-gpl-packaging。 增加索引 gpl-packaging的作用主要是对压缩的lzo文件创建索引,否则的话,无论压缩文件是否大于hdfs的...

2019-04-14 17:41:00 453

转载 使用shell脚本发送邮件带附件

前置条件 要使用脚本发送邮件,必须设置发送邮箱开启IMAP/SMTP服务。否则将会报错。 同时脚本所在服务器需要有sendEmail命令 #下载安装包wget http://caspian.dotconf.net/menu/Software/SendEmail/sendEmail-...

2019-04-12 15:00:00 955

转载 5、shell编程

入门 1、shell脚本默认的【大家约定的并不是百分百】是.sh结尾的 2、而且脚本需要有执行权限+x 3、我们也可以通过sh [文件名] 来执行本文件;也是用sh命令来执行这个脚本 [hadoop@hadoop data]$ sh --helpGNU bash, version 4...

2019-04-11 20:30:00 155

转载 sqoop入门

Sqoop产生背景 1)RDBMS ==》Hadoop file ==》load hive shell==》file==》hdfs mapreduce:inputformat outputformat 2)H...

2019-04-09 20:29:00 149

转载 Hadoop编译支持5种压缩格式

apache版本编译 前置环境为:JDK1.8、Maven3.1、Hadoop2.7.3 1、安装bzip2以及各种依赖 [root@hadoop ~]#yum -y install wget gcc gcc-c++ bzip2 bzip2-devel zlib zlib-devel o...

2019-04-02 15:25:00 354

转载 如何确定block损坏的位置和修复

hdfs fsck命令查看HDFS文件对应的文件块信息(Block)和位置信息 在HDFS中,提供了fsck命令,用于检查HDFS上文件和目录的健康状态、获取文件的block信息和位置信息等。 fsck命令必须由HDFS超级用户来执行,普通用户无权限。 [hadoop@hadoop ~]...

2019-04-01 22:10:00 752

转载 大数据压缩

1. 压缩的好处和坏处 压缩技术分为有损和无损:大数据场景下我们用到的都是无损;不允许丢失数据 好处 减少存储磁盘空间 降低IO(网络的IO和磁盘的IO) 加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度 坏处 由于使用数据时,需要先将数据解压,...

2019-04-01 17:00:00 675

转载 number of splits 划分的条件

split:split是逻辑切片,在mapreduce中的map task开始之前,将文件按照指定的大小切割成若干个部分,每一部分称为一个split,默认是split的大小与block的大小相等,均为128MB。 split大小由minSize、minSize、blocksize决定...

2019-04-01 10:58:00 471

转载 4、Hadoop高级之HDFS&YARN HA部署

Hadoop HA模拟搭建集群条件准备: 3台虚拟机centos7 64位 hadoop-2.6.0-cdh5.7.0.tar.gz jdk-8u45-linux-x64.gz zookeeper-3.4.6.tar.gz 本地搭建虚拟机;我们采用.net内网模式 hadoop01 ...

2019-03-31 17:14:00 243

转载 3、Hadoop高级之HDFS&YARN HA架构剖析

HDFS HA 1、为什么要用集群 学习过程中我们只需要单点就够了 我们在企业中大数据几乎所有组建都是主从架构 master-slave 比如hdfs读写请求都是先NN节点; 但是:hbase 读写请求不是经过老大master 企业里面,伪分布式 每一个角色都是1个进程 HDFS:...

2019-03-29 22:17:00 139

转载 2、Hadoop离线项目之数据清洗

企业级大数据项目开发流程 项目调研:技术?业务?【对业务很了解】 产品经理、非常熟悉业务、项目经理 需求分析:明确做什么 做成什么样子的(做东西不要局限于某个技术) 用户提出来的:显示【实现较为简单】 ...

2019-03-26 20:43:00 628

转载 1、Hadoop离线项目整体技术

离线项目下的Hadoop生态栈 Hadoop生态离线项目 Hadoop:(无论什么大数据项目Hadoop是少不了的) HDFS MapReduce(主要是做清洗) YARN (大数据项目基本都是跑在yarn资源框架上) Hadoop集群 Hi...

2019-03-25 19:56:00 148

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除