大数据技术
itcast_xiaohuer
这个作者很懒,什么都没留下…
展开
-
clinkhouse导入实例(source: kafka or hive)
【代码】clinkhouse导入实例(source: kafka or hive)原创 2023-01-12 15:03:15 · 118 阅读 · 0 评论 -
hbase条件查询java实现
多条件过滤:/*** 通过tileId获取轨迹信息* @param tableName hbase 表名* @param family* @param tile_id 条件值字符串* @return* @throws IOException*/public ArrayList<String> filterByRouteFingerprintId(String tableName, String family, String tile_id) throws IOExceptio原创 2021-06-07 15:51:40 · 847 阅读 · 0 评论 -
hive:编写UDF自定义函数
UDF(User-Defined Functions)即是用户定义的hive函数。hive自带的函数并不能完全满足业务需求,这时就需要我们自定义函数了。创建maven工程:工程目录结构:(1) 加载pom文件:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apac原创 2021-01-18 16:56:47 · 291 阅读 · 0 评论 -
spark-sql命令行执行模板
spark运行参数根据实际情况自行设置,仅供参考。spark-sql --conf spark.scheduler.listenerbus.eventqueue.size=90000000--driver-cores 4 --driver-memory 10g --executor-memory 80g --num-executors 40 --executor-cores 20 --master yarn << EOF**HIVESQL**EOF...原创 2020-09-21 09:18:59 · 556 阅读 · 0 评论 -
hive表数据倾斜(已解决)
在执行hive表过程中发现在reduce过程中出现java 堆内存满了,多次执行问题重复,于是考虑到是一个hive表数据倾斜的原因(因为在之前不久服务器迁移来的)1.create B like A;2.插入数据set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;insert overwrite table B PARTITION (inc_day)select * from A;原创 2020-07-13 13:45:12 · 355 阅读 · 0 评论 -
跨hadoop集群hive表迁移
步骤一:在源机器(待迁移集群)执行show create table tables1;(1)查看hive表信息(2)查看该表路径信息: /user/hive/warehouse/abc.db/tables1步骤二:在源机器(待迁移集群)执行hadoop distcp hdfs://hadoop9:8020/user/hive/warehouse/abc.db/tables1 hdfs://ipaddress/apps/hive/warehouse/abc.db/tables1 ipaddre原创 2020-06-29 10:50:30 · 393 阅读 · 0 评论 -
hive基础知识点总结
数据仓库:是一个面向主题的、集成的、不可更新的、随时间不变化的数据集合,它用于支持企业或组织的决策分析处理。OLTP应用联机事务处理,关注的是事物的处理,典型的OLTP应用是银行转账,一般操作频率会比较高;OLAP应用联机分析处理,主要面向的是查询,典型的OLAP应用是商品推荐系统,一般不会做删除和更新,数据一般都是历史数据。数据仓库中的数据模型:星型模型和雪花模型。星型模...原创 2019-07-07 15:09:45 · 279 阅读 · 1 评论