大数据
文章平均质量分 56
Hunter_Young
慢慢变强
展开
-
datax使用实践
datax的工具包可以根据github地址上开源的代码进行下载编译,下载后需要maven等环境。推荐直接下载开源的工具包,开箱即用。原创 2023-04-25 10:33:38 · 175 阅读 · 0 评论 -
阿里云dataworks python UDF使用实践
业务上计算业绩需要剔除掉指定放假时间,我们这里的放假时间维护在一个mysql表中,进行动态配置,所以需要自定义函数来计算当前日期几天之后的时间,这几天中如果包含myql表中存储的放假日期,则需要剔除掉,然后进行顺延。如下,计算2023-01-25这个日期7天之后是什么日期,正常是2023-02-02,但是现在需要剔除掉配置时间confid_days中的两天,最后结果是2023-02-04。需要将这个逻辑写成udf函数,进行使用。阿里云函数注册,其中类名出是--文件名.类名 的组合。原创 2023-02-08 15:32:02 · 658 阅读 · 2 评论 -
阿里云数仓实时同步任务binlog解析文档
阿里云dataworks中有实时同步数据库binlog的任务配置,起源是业务数据库中数据被回滚了,所以借助数仓这边的同步任务数据进行解析和监控更新时间。原创 2022-10-17 17:05:31 · 767 阅读 · 0 评论 -
SQL中JOIN、LEFT JOIN、RIGHT JOIN 的区别
JOIN是INNER JOIN的简写,LEFT JOIN 是LEFT OUTER JOIN的简写。原创 2022-06-28 07:57:09 · 886 阅读 · 0 评论 -
记一次大数据工程上云问题汇总以及系统排查问题思路(Error loading PartitionExpressionProxy)
工程环境概述java 8 ;maven;jfinal 3.3;hive 1.1.0-cdh5.4.1;由于系统上云,需要在新的环境中重新部署。系统的功能是获取hive元数据,对元数据进行分析和生命周期管理等功能。框架采用JFinal和Cron4jPlugin插件实现任务定时调度。部署工程中出现的问题在部署的过程中主要存在两方面的问题,一方面是代码需要重新更新到最新的配置,例如一些ip更新,端口更新,还有代码需要和现在线上的hiveserver2版本相适应;另一方面是服务器环境的问题,此.原创 2021-03-09 19:56:44 · 851 阅读 · 0 评论 -
【需求】使用python将mysql数据进行处理汇总,存入hive表中
python连接mysql数据库用pip安装好pymysql库,python版本 3.6,连接数据库 import pymysql import xlwt import datetime from pyhive import hiveconn = pymysql.connect(host='********', user = '***', password = '****', database = '****', charset = 'utf8')cursor = conn.原创 2021-02-20 10:59:58 · 334 阅读 · 1 评论 -
hbase shell命令使用实战
目录进入HBase shell查看库表查看表结构插入一条数据查看表中数据删除表查看‘TEST_ORDER’ 表行数get 查看指定数据删除某一列清空表数据进入HBase shellhbase shell查看库表注意:不要加分号;list查看表结构describe 'TEST_ORDER'插入一条数据put 'TEST_ORDER','00001','info:userna...原创 2021-02-02 19:45:45 · 181 阅读 · 0 评论 -
大数据技术框架和学习路线(保持技术点更新)
基于如下的大数据框架以及学习路线,我们按照每个标题进行整理和汇总。欢迎补充技术要点。一、大数据技术基础1、linux操作基础linux系统简介与安装 linux常用命令–文件操作 linux常用命令–用户管理与权限 linux常用命令–系统管理 linux常用命令–免密登陆配置与网络管理 linux上常用软件安装 linux本地yum源配置及yum软件安装 linux防火墙配置 linux高级文本处理命令cut、sed、awk linux定时任务crontab2、shell.原创 2021-01-24 18:26:47 · 341 阅读 · 0 评论