自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 数仓项目(二)--- 数据生成模块

文章目录一、目标数据1.页面2.事件3.曝光4.启动5.错误二、数据埋点1.主流埋点方式(了解)2.埋点数据日志结构3.埋点数据上报时机总结一、目标数据我们要收集和分析的数据主要包括:页面数据、事件数据、曝光数据、启动数据和错误数据1.页面页面数据主要记录一个页面的用户访问情况,包括访问时间,停留时间,页面路径等所有页面id如下home("首页"),category("分类页"),discovery("发现页"),top_n("热门排行"),favor("收藏页"),searc

2021-01-20 23:13:46 210

原创 数仓项目(一)--- 数仓概念和项目需求及架构设计

文章目录数据仓库概念项目需求技术选择系统数据流程设计测试集群服务器规划数据仓库概念数据仓库(Data Warehouse)是为企业所有决策制定过程,提供所有系统数据支持的战略集合通过对数据仓库中的数据分析,可以帮助企业,改进业务流程,控制成本,提高产品质量等数据仓库,并不是数据的最终目的地,而是为了数据最终目的地做好准备。这些准备包括:清洗转义分类重组合并拆分统计…项目需求用户行为数据采集平台搭建业务数据采集平台搭建数据仓库维度建模分析,用户、流量、会员、.

2021-01-19 23:05:29 291

原创 数仓项目(四)--- Hadoop部署

文章目录前言一、Hadoop部署1.集群的规划2.将软件包导入到虚拟机中3.JDK准备3.1 如果安装了的JDK需先卸载3.2 解压3.3 配置环境变量3.4 测试安装是否成功3.5 分发JDK3.6 分发环境变量3.7 在其他两台机器重新加载环境变量并验证4.Hadoop准备4.1 解压软件包4.2 将hadoop添加到环境变量4.3 分发环境变量文件4.4 使环境变量生效二、配置集群1.核心配置文件2.HDFS配置文件3.YARN配置文件4.MapReduce配置5.配置workers三.配置历史服务.

2021-01-17 23:08:36 292

原创 数仓项目(三)--- 环境准备

文章目录环境准备一、虚拟机准备1.配置要求2.修改主机名3.关闭防火墙4.创建普通用户5.配置普通用户具有root权限6.在/opt下创建module、software文件夹7.重启二、集群分发脚本准备1.创建bin文件夹2.创建xsync文件3.修改脚本,使其具有执行权限4.测试三.SSH无密登录配置1.生成公钥和私钥2.将公钥拷贝到要免密登录的目标机器上3. .ssh文件夹下(~/.ssh)的文件功能解释总结环境准备利用3台虚拟机搭建数仓测试环境一、虚拟机准备1.配置要求单台虚拟机:内存

2021-01-17 11:53:02 264

原创 每日一道SQL题(五)

一、626. 换座位小美是一所中学的信息科技老师,她有一张 seat 座位表,平时用来储存学生名字和与他们相对应的座位 id。其中纵列的 id 是连续递增的小美想改变相邻俩学生的座位。你能不能帮她写一个 SQL query 来输出小美想要的结果呢?示例:idstudent1Abbot2Doris3Emerson4Green5Jeames假如数据输入的是上表,则输出结果如下:idstudent1Doris2

2021-01-04 17:58:56 459 1

原创 每日一道SQL题(四)

一、176. 第二高的薪水编写一个 SQL 查询,获取 Employee 表中第二高的薪水(Salary) 。IdSalary110022003300例如上述 Employee 表,SQL查询应该返回 200 作为第二高的薪水。如果不存在第二高的薪水,那么查询应返回 null。SecondHighestSalary200题目连接二、解题思路1.limit + offset代码如下(示例):select distinct sa

2020-12-29 23:07:50 97

原创 每日一道SQL题(三)

一、178分数排名编写一个 SQL 查询来实现分数排名。如果两个分数相同,则两个分数排名(Rank)相同。请注意,平分后的下一个名次应该是下一个连续的整数值。换句话说,名次之间不应该有“间隔”。题目链接IdScore13.5023.6534.0043.8554.0063.65例如,根据上述给定的 Scores 表,你的查询应该返回(按分数从高到低排列):ScoreRank4.0014.0013.

2020-12-29 18:12:52 128

原创 每日一道SQL题(二)

一、627. 变更性别给定一个 salary 表,如下所示,有 m = 男性 和 f = 女性 的值。交换所有的 f 和 m 值(例如,将所有 f 值更改为 m,反之亦然)。要求只使用一个更新(Update)语句,并且没有中间的临时表。注意,您必只能写一个 Update 语句,请不要编写任何 Select 语句。例如:idnamesexsalary1Am25002Bf15003Cm55004Df500运行你所编写的更新语句之后,

2020-12-29 16:16:48 160 2

原创 每日一道SQL题

一、182. 查找重复的电子邮箱编写一个 SQL 查询,查找 Person 表中所有重复的电子邮箱。示例:IdEmail1a@b.com2c@d.com3a@b.com根据以上输入,你的查询应返回以下结果:Emaila@b.com说明:所有电子邮箱都是小写字母。二、解题思路1.按email字段分组聚合代码如下(示例):selectemail,count(1) as cntfrom persongroup by ema

2020-12-28 23:26:18 231

原创 搜索插入位置

搜索插入位置前言一、题目描述二、解题思路1.分析所有可能出现的情况2.暴力解法3.二分法3.1第一种写法3.2第二种写法总结前言二分查找法是数组里面常用的方法,必须彻底掌握一、题目描述给定一个排序数组和一个目标值,在数组中找到目标值,并返回其索引。如果目标值不存在于数组中,返回它将会被按顺序插入的位置。你可以假设数组中无重复元素示例1:输入:[1,3,5,6], 5输出:2示例2:输入:[1,3,5,6], 7输出:4二、解题思路1.分析所有可能出现的情况目标值在数组所有的

2020-12-21 00:59:17 82

原创 Git学习笔记(廖老师Git教程)

Git 目前世界上最先进的分布式版本控制系统Git 安装Mac 自带git在终端输入 git --version 即可查看初始化本地仓库我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示...

2019-06-26 21:10:03 185

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除