自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (2)
  • 收藏
  • 关注

原创 kafka的可视化工具Offset Explorer

大数据工具之kafka可视化工具使用

2022-07-25 11:52:27 885 1

原创 mysql-虚拟列

mysql虚拟列的应用

2022-07-12 14:59:45 560

原创 SQL--打折日期交叉问题

如下为平台商品促销数据:字段为品牌,打折开始日期,打折结束日期需求计算每个品牌总的打折销售天数,注意其中的交叉日期,比如 vivo 品牌,第一次活动时间为 2021-06-05 到 2021-06-15,第二次活动时间为 2021-06-09 到 2021-06-21 其中 9 号到 15 号为重复天数,只统计一次,即 vivo 总打折天数为 2021-06-05 到 2021-06-21 共计 17 天。......

2022-07-12 14:56:51 428

原创 SQL--统计出每日在线总数

需求:一张表有uid、起始日期和终止日期,能不能一条sql统计出每日在线总数样例:比如 三条数据:a 20220510 20220512b 20220510 20220511c 20220511 20220512结果:20220510 220220511 320220512 2参考答案:selectday1,count(distinct uid)from(selectindex,start_date,uid,date_add(start

2022-07-12 11:45:22 941

原创 数据仓库建设标准化流程

数仓规划1.数据分层2.业务分类3.数据域4.业务过程

2022-04-08 11:35:01 498

原创 面试题:如何用sqoop将hive中分区表的分区字段导入到MySQL中

1.创建目标表(分区表)hive> CREATE TABLE `dept_partition`( `deptno` int, `dname` string, `loc` string) ...

2020-03-05 20:44:27 2064 2

原创 面试题:使用SQL选出下表中6个指标至少4个大于50的城市

题目:青岛,96,50,56,55,43,21北京,74,16,96,29,54,4南京,5,52,18,82,18,83答案:1.建表drop table if exists t_index;create table t_index( city string, od int, sc int, pc int, hc int, gc int, ghc int) row ...

2020-01-05 23:54:27 348

使用Spark MLlib给豆瓣用户推荐电影.doc

完整项目链,机器学习到用户推荐,实现精准营销! ALS算法 LS是alternating least squares的缩写 , 意为交替最小二乘法。该方法常用于基于矩阵分解的推荐系统中。例如:将用户(user)对商品(item)的评分矩阵分解为两个矩阵:一个是用户对商品隐含特征的偏好矩阵,另一个是商品所包含的隐含特征的矩阵。在这个矩阵分解的过程中,评分缺失项得到了填充,也就是说我们可以基于这个填充的评分来给用户最商品推荐了。

2019-12-28

基于阿里云搭建数据仓库(离线).pdf

1)学习搭建一个数据仓库的过程,理解数据在整个数仓架构的从采集、存储、计算、 输出、展示的整个业务流程。 2)整个数仓体系完全搭建在阿里云架构上,理解并学会运用各个服务组件,了解各个 组件之间如何配合联动。 3)前置知识要求  熟练掌握SQL语法  熟悉Linux命令  对Hadoop大数据体系有一定的了解

2019-12-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除