自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 分类算法学习 - 朴素贝叶斯

2020-05-11 15:36:23 189

原创 分类算法学习 -逻辑回归

线性回归 VS 逻辑回归1) 变量分布:线性回归要求服从正态分布逻辑回归对分布没有要求2) 数值类型:线性回归要求因变量是连续性数值变量逻辑回归要求因变量是分类型变量3) 自变量与因变量关系:线性回归呈线性关系,即 y = ax+b逻辑回归不要求呈线性关系4) 分析内容:线性回归分析因变量与自变量的关系逻辑回归分析因变量取某个值得概率与自变量的关系...

2020-05-11 15:35:10 325

原创 AB测试 - 基础概括

概念介绍A/B Testing / Experimentation [Observing what people do not what they say]源自于直接邮寄的测试方法,整体的项目框架为:提出假设,设立实验,得出结论。可以概括为:“抽取10%的流量,其中50%用户访问新版本,50%访问旧版本。看看最后的结果是不是真的好。就算不好受到影响的也只有那总量中的5%的用户,如果效果显著就...

2020-04-28 18:00:59 1311

原创 MySQL学习 - 自定义变量

MySQL 变量MySQL包括系统变量和自定义变量。因我不太涉及服务器层面,因此只先对自定义变量进行学习。

2020-04-20 13:41:59 233

原创 HIVE VS MySQL 函数对比

case whenMySQLselect case gender when 0 then 'Male' when 1 then 'Female' else 'other' end as genderfrom table;Hiveselect case when gender = 0 then 'Male' when gender = 1 then 'Female'...

2020-04-07 17:17:34 920 1

原创 MySQL学习 - 数据库设计范式

关系型数据库设计时需要遵照的规范要求称为“范式(Normal Function)”。**范式的主要作用在于减少单表中数据的冗余,因而单表数据量减小,表总数量增加,减缓一些查询效率,属于用时间换空间。**反范式则是在允许一定程度冗余的基础上,提高查询效率,即用空间换时间。...

2020-04-07 14:42:00 188

原创 MySQL学习 - 索引

索引在MySQL中也称为“键 key”,是存储引擎用于快速找到记录的一种数据结构。通过构建合理的索引,可以优化查询性能,提高查询效率,同时通过添加约束,也保证了字段的唯一性和数据的完整性。通常我们在表中的某一个或多个字段上构建索引,例如经常被查询的字段(where子句)、分组的字段(group by子句)、联合查询(主键或外键字段)等等。

2020-04-07 00:21:17 160

原创 MySQL学习 - 模糊查询/group_concat()/子查询/多表关联

MySQL- 模糊查询- 分组 group_concat()- 多表关联- 子查询 exsits/ any/ all

2020-04-06 22:40:01 1728

原创 MySQL学习 - 数据库基础

MySQL建表及增删改基础语句学习

2020-04-06 16:33:37 167

原创 AB测试 - 假设检验的两类错误

假设检验两类错误

2020-04-04 20:10:09 3602

原创 Tableau学习 - 计算字段

根据数据源字段(维度、度量、参数),使用函数或和运算符构造公式,自定义的字段。可以拖拽至工作区构建视图,也可以用来构建新的字段。返回值分为数值型、字符型等。新建的计算字段会出现在维度、度量、参数面板中,其中维度和度量的数据会保存新的一列至源数据源。

2020-03-28 16:23:13 5803

原创 Tableau学习 - 数据分层、数据分组、数据集

数据分层、数据分组、数据集

2020-03-28 13:30:07 961

原创 Tableau学习- 详细级别表达式 LOD Expression

版本号发布时间更新主要功能

2020-03-27 16:27:53 986

原创 数据倾斜

什么是数据倾斜在进行分布式计算时,某些节点的计算能力比较强或者需要计算的数据比较少,因此这些节点的任务早早地执行完成;然而另一些节点的计算能力较差或需要计算的数据比较多时,这些节点的任务没有执行完成。这种因为计算能力不均或数据分布不均造成数据热点(数据大量集中在某些节点)情况。主要表现为:任务进度一直维持在90% - 99%~100%附近,通过任务监控器查看仅有少数几个Reduce子任务未完成...

2020-03-26 16:14:06 117

原创 HIVE - 窗口/分析函数 Window Function

窗口函数/分析函数(Window Function):1. 聚合计算2. 分区排序3. 分组排序4. 偏移计算

2020-03-25 14:42:34 1128

转载 Hive简介、架构、数据组织

Hive架构、数据组织等简介

2020-03-24 21:37:55 244

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除