自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

涤生大数据

在职大数据架构专家,擅长大数据开发,组件调优,集群运维架构。当前管理1500+节点大数据集群,100PB+数据,爱好python,爬虫。免费给所有转行大数据小白,大数据初级开发者提供职业规划和学习定制建议,欢迎大家交流

  • 博客(12)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 UDF函数:根据日期生日等查询星座

    自定义UDF函数实现:根据用户的生日,判断用户是什么星座.import org.apache.hadoop.hive.ql.exec.Description;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text...

2018-05-26 23:24:52 5310

原创 UDF函数:对字符串实现sha256加密,返回64位十六进制字符串

实际需求多一些特殊数据需要加密存储。下面 实现sha256加密,返回64位十六进制字符串package cnsuning.udf.functions.string;import org.apache.commons.codec.digest.DigestUtils;import org.apache.hadoop.hive.ql.exec.Description;import org.ap...

2018-05-26 10:39:48 7147

原创 UDF函数:求两个字符串列表或者数组之间的交集,差集,并集,补集

求两个字符串列表或者数组之间的交集,差集,并集,补集。import org.apache.commons.collections.CollectionUtils;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;...

2018-05-26 10:30:39 6550

原创 hive使用动态分区插入数据详解

    往hive分区表中插入数据时,如果需要创建的分区很多,比如以表中某个字段进行分区存储,则需要复制粘贴修改很多sql去执行,效率低。因为hive是批处理系统,所以hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区。   1.创建一个单一字段分区表hive> create table dpartition(id int ,name string ...

2018-05-20 15:21:57 112269 13

原创 往hive表中插入与导出数据方式load ,insert ,sqoop 等方式详解

      往hive数据仓库的表中导入数据,可以直接insert ,也可以选择load方式。当然也可以通过第三方工具如sqoop等将数据导入到hive当初。特别注意:hive虽然不会验证用户装载的数据和表的模式是否匹配,但是hive会验证文件的存储格式和hive定义的表结构的存储格式是否一致。比如将文本文件装载到sequencefile表中则报错。1.往hive表中导入数据   1.lo...

2018-05-20 13:37:46 15656 1

原创 hive中如何将rcfile,textfile,sequencefile,以及自定义存储格式的数据相互转换

        hive中常见的文件存储格式也就3种,textfile,sequencefile,rcfile.实际开发中,很多公司都会采用自定义的存储格式来实现数据的特定存储。一方面是为了数据安全,另一方面是根据自身情况实现数据存储的效益最大化。       1.使用textfile存储格式创建表create table fdm_sor.saveas_textfile(id int ,nam...

2018-05-20 10:21:38 11611 1

原创 textfile,sequencefile和rcfile的使用与区别详解

      hive在创建表时默认存储格式是textfile,或者显示自定义的stored as textfile.很多人知道hive常用的存储格式有三种,textfile,sequencefile,rcfile.但是却说不清楚这三种格式的干什么用的,本质有有什么区别?适合什么时候用?       因为hive是文本批处理系统,所以就存在一个往hive中导入数据的问题,首先数据的存储格式有多种,甚...

2018-05-14 00:35:23 21365 1

原创 hive中关于数据库和表的常见操作详解

        hive是属于批处理系统,所以最大的缺点就是不支持行级别的数据插入,删除,更新,也不支持事务机制。hive中数据库的概念本质上也仅仅是mysql(或别的存储元数据的数据库)表中一个目录或者命令空间(namespace),但是对于大集群来说,这又必不可少,因为只有这样才能将生产表组成逻辑组,形成组织层次结构。官网关于数据库和表的操作:官网关于数据库和表的常见操作1.hive关于数...

2018-05-13 12:32:18 6171

原创 详解hive的列分隔符和行分隔符的使用

      hive中在创建表时,一般会根据导入的数据格式来指定字段分隔符和列分隔符。一般导入的文本数据字段分隔符多为逗号分隔符或者制表符(但是实际开发中一般不用着这种容易在文本内容中出现的的符号作为分隔符),当然也有一些别的分隔符,也可以自定义分隔符。有时候也会使用hive默认的分隔符来存储数据。hive (fdm_sor)> create table fdm_sor.mytest_tmp...

2018-05-13 10:42:40 87856 5

原创 Hive数据类型和使用注意事项详解

了解Hive数据类型 ,是Hive编程的基础。使用hive建表,首先要明白hive常用的数据类型有哪些,可以存储哪些类型的数据。其实Hive支持关系型数据库中的大多数基本数据类型,且同时支持关系型数据库中少见的3种集合数类型(STRUCT,MAP,ARRAY)。然而学习技术最好的方式之一就是去查看官方文档。 Hive关于数据类型官网地址:Hive官网关于数据类型的介绍...

2018-05-11 00:56:35 39069

原创 数据仓库中mysql,hive,hdfs,mapreduce之间的关系

         交流中发现很多hive转行的开发者都不是特别清楚,hive既然是数据仓库,那为什么还需要mysql数据库,还需要hdfs呢,熟悉三者之间的关系是作为一个合格的hive数据仓库开发者必须掌握的技能 一.什么是Hive与其特点       官网介绍:The Apache Hive ™ data warehouse software facilitates reading, w...

2018-05-05 16:02:00 17378 2

原创 使用alias给常用的命令起别名

      基于linux系统操作时,有时候我们会使用ls -l 来查看当前目录下的文件和目录了。但是也有人直接使用ll命令来实现此功能。ls -l可以一目了然,命令加参数,那ll又是什么鬼呢?这就要说到alias的命令了。[robot@hadoop103 ~]$ aliasalias egrep='egrep --color=auto'alias fgrep='fgrep --color=a...

2018-05-02 23:13:15 5873

阿里里巴巴企业数据安全中的数据脱敏实践.pdf

企业数据安全中的数据脱敏 阿里巴巴

2021-09-10

腾讯大数据安全体系架构与介绍.pdf

腾讯大数据安全体系介绍

2021-09-10

Python3.5官方文档中文版本chm格式

python3.5版本,官方文档中文版,已经 集成为chm格式,直接打开即可使用,更加方便好操作。免费下载吧

2018-09-06

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除