- 博客(9)
- 收藏
- 关注
原创 利用sqoop将某一数据库从MySQL导入hive
数据库导入导出第一步:在hive中创建数据库在hive中创建一个数据库:第二步:复制MySQL中表的名字在mysql数据库,查询目标数据库下的所有表名,复制到你指定的文件中(如:/root/tables.txt)第三步:编辑运行脚本在home目录下,创建目录mkdir scriptscd scripts编
2024-09-19 20:07:48 524
原创 字符串转特定格式时间的方法
作用是返回一个确切的时间点的UNIX时间戳,这个Unix时间戳是一个无符号整数。unix_timestamp()函数有两种转换方式,有参和无参。运行结果:上述代码中dt是参数,'yyyyMMdd'是参数的时间类型,原本是字符串,通过'yyyyMMdd'指定字符串为yyyyMMdd时间类型将时间戳转为指定日期格式。
2024-09-10 20:05:55 366
原创 视频号数据分析组外包招聘笔试题
活跃用户的 7 日留存率,输出字 段日 期,用户 id,7 日留存率具体表结构如下表 1 用户行为表:t_user_video_action_d。比如:7月1日新增用户100,这100人中在7月2日启动过应用的有30人,7月3日启动过应用的有25人,7月4日启动过应用的有32人。假如2023-12-05日数据出来后,可以计算12-04的1日留存,12-03的2日留存,12-02的3日留存。可以这样说7月 1的 1日留存用户 有30人,2日留存用户有25人,3日留存用户有32人。留存用户:某段时间内的。
2024-09-10 11:33:44 374
原创 使用新版海豚调度器(DolphinScheduler)单机模式遇到的一些问题
CentOS要求:需要版本达到7.0及以上。为什么要用单机模式:启动单机模式的DS非常节约内存,适合个人开发练习。注意:单机启动,不需要zk,它内置了zk,把我们自己的zk服务停掉。
2024-09-09 20:51:56 335
原创 Flume简单学习
Apache Flume 是一个分布式、高可靠、高可用的用来收集、聚合、不同来源的到中央数据仓库的工具。数据大概分为三类:1、日志数据--文本文档2、业务数据--各种数据库3、第三方数据--买的,别人给的、爬取的对flume的理解:flume 其实就是水管 数据起始就是水,将水引入到不同的容器中Sqoop -- 一般用于采集数据库中的数据Flume -- 一般采集我们的日志数据 user.logFlume 其实可以看做一个水管。一头接着水源,一头接着桶,从水源地抽取数据到桶里去。
2024-09-07 16:37:53 1059
原创 idea常用小插件
一、第一个插件--提示括号的二、Translation-翻译三、ERNIT Bot AI 工具四、ptg --自动生成 javaBean五、通义灵码
2024-09-07 15:52:53 257
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人