大数据
loaDforK
这个作者很懒,什么都没留下…
展开
-
hive中文乱码问题解决
hive中文乱码问题解决原因:hive的元数据库(mysql等)字符集问题在hive的元数据库,一般是mysql中执行下面所有语句use hive;-- 修改表字段注解alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;-- 修改表注解alter table TABLE_PARA...原创 2020-05-07 11:48:58 · 642 阅读 · 0 评论 -
Spark SQL 函数汇总
org.apache.spark.sql.functions是一个Object,提供了约两百多个函数。经过import org.apache.spark.sql.functions._ ,也可以用于Dataframe,Dataset。版本介绍Spark V2.3.0聚合函数approx_count_distinctcount_distinct近似值avg平均值collect_l...转载 2019-12-18 11:04:14 · 489 阅读 · 0 评论 -
Maxcompute部分日期函数在hive解决方案
在使用hive替换Maxcompute(ODPS)时,遇到一些日期函数需要替换,例子如下:原创 2019-06-30 22:37:20 · 2144 阅读 · 0 评论 -
[Maxcompute]表关联翻倍问题解决
0X00 前提技术选型:阿里云Maxcompute 2.0场景:普通的日常模型开发,原有的模型宽表基础上通过left outer join获取新的维度信息。操作:A LEFT OUTER JOIN B ON A.ID=B.CID;0x01 过程分析:A表80w数据量,B表200w。一开始怀疑是因为小表左关联大表导致数据量翻倍,但是通过另外一个50w行记录的C表左关联B表实验,得到结果接...原创 2019-04-25 02:16:17 · 1170 阅读 · 0 评论 -
[Maxcompute]数据类型
基本数据类型MaxCompute2.0 支持的基本数据类型如下表,新增类型有:TINYINT、SMALLINT、 INT、 FLOAT、VARCHAR、TIMESTAMP 和 BINARY,MaxCompute 表中的列必须是下列描述的任意一种类型,详情如下:注意:若想使用新数据类型,需在 SQL 语句前加语句:set odps.sql.type.system.odps2=true;...转载 2019-04-19 20:25:12 · 3318 阅读 · 0 评论 -
[hive]外部分区表结构变更后查询为空问题解决
0X00 前提数仓技术选型:hive+sqoop1.4.4场景:数仓中ods增量表由于上游db表变更缘故,需要对应地增加两个字段,一般使用alter table table_name add columns(column_name type comment '');的方式来直接在hive中增加字段。但由于上下游之间信息传达、沟通不到位,导致在上游db的源表已经增加表字段数天后,数仓相关部门才收...原创 2019-04-21 23:15:44 · 977 阅读 · 0 评论 -
[hadoop]安装笔记
Preface平常更多是在工作中使用hadoop、hive等一众工具,这次尝试自己安装。配置组合:虚拟机+ubuntu14+java1.7+hadoop2.9.1虚拟机安装hadoop之前,请将分配给虚拟机的内存数调为2的n次方个G,n大于等2实验证明当内存数小于4时,一个简单的找字母的MR作业都会资源不足导致倾斜问题。安装参考给力星的文章: http://dblab.xmu.edu.c...原创 2019-04-10 01:44:20 · 262 阅读 · 0 评论 -
云计算研究必备——精典Google论文
Google云计算技术奠定其在业界的领先地位,收集经典云计算技术公开文章供大家研究学习:GFS-The Google File SystemBigtable - A Distributed Storage System for Structured DataMapReduce - Simplified Data Processing on Large ClustersPre...转载 2019-01-23 15:36:00 · 1237 阅读 · 0 评论 -
NewSQL:从NoSQL到NewSQL
前言其实本来是预想本文发表在18年年末,作为18年最后一弹,也是对之前工作、学习一些见解的总结。但是由于仪式感不敌拖延症,所以文章变成了19年新年第一弹,可惜未能在元旦完成,自我执行力还是要检讨下。(纯文字,没有什么图,不好意思)NoSQL源自2009年,当时在美国三藩市举办的一次Meetup提到的“Open Source, Distributed, Non Relational Databa...原创 2019-01-02 04:06:44 · 3669 阅读 · 0 评论 -
【Hbase】初识HBase(一些HBase学习笔记)
HBase从Google的bigtable论文发展而来,遵循着Key/value键值对、列存储模型。Rowkey,一些地方翻译为行健,在HBase中用来唯一标识表中一行记录,不存在两行Rowkey一致的记录,且只能通过Rowkey进行行的查询,不存在其他列作为查询/过滤条件的方式(可以通过对其他列值和对应的rowkey建一个索引表进行二级查询来实现)。Rowkey在内部是以一个字节数组的方式进...原创 2018-12-30 20:01:59 · 489 阅读 · 0 评论 -
[hadoop] hadoop命令小结
hadoop fs -mkdir /tmp/input 在HDFS上新建文件夹hadoop fs -put input1.txt /tmp/input 把本地文件input1.txt传到HDFS的/tmp/input目录下hadoop fs -get input1.txt /tmp/input/input1.txt 把HDFS文件拉到本地hadoop fs -ls原创 2016-11-06 13:46:33 · 349 阅读 · 0 评论 -
通过JDBC访问hive集群
hive是大数据结构化的查询工具,之前一直使用cli客户端连接hive集群进行SQL存储过程代码的测试。JDK版本:1.8hive版本:0.13hadoop版本:2.52集群元数据库MySQL库的版本貌似是5.1,这个其实不影响。以下为示例代码:package com.java.linkhive;import java.sql.Connection;import java.sql.Dr原创 2016-11-23 12:09:14 · 3431 阅读 · 0 评论 -
[hive] hive: command not found错误解决
背景:在shell脚本中简单定义hive的命令,并且通过crontab定时任务机制去调度,实现定时动态添加hive表分区。 **环境:**hadoop2.5.2+hive0.14(0.13)+zk3.3 问题描述: shell脚本如下:target_date=`date '+%Y-%m-%d' -d "+2 days"`inc_mon=`date '+%Y%m' -d "0 days $ta原创 2017-01-03 11:57:20 · 15712 阅读 · 3 评论