自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 问答 (11)
  • 收藏
  • 关注

转载 数据建模学习笔记

1 基础概念数据建模方法,一般分为三种:实体建模方法,维度建模方法,以及范式建模法。无论是哪种建模方法,都是使信息结构清晰,易于存储和读取。具体如下所述:a)实体建模方法实体是现实世界中存在的事物或发生的事件,是现实世界中任何可识别、可区分的事物。实体可以是人,可以是物,也可以是发生的某件事,比如一场篮球比赛。每一个实体都必须具备一定的特征,用来区分一个个实体,这些特征称为属性,每个实体可以...

2019-12-08 22:28:54 489

转载 hive中的lateral view 与 explode函数的使用

explode与lateral view在关系型数据库中本身是不该出现的,因为他的出现本身就是在操作不满足第一范式的数据(每个属性都不可再分),本身已经违背了数据库的设计原理(不论是业务系统还是数据仓库系统),不过大数据技术普及后,很多类似pv,uv的数据,在业务系统中是存贮在非关系型数据库中,用json存储的概率比较大,直接导入hive为基础的数仓系统中,就需要经过ETL过程解析这类数据,e...

2019-08-20 17:20:32 1397

原创 Python 可视化 seaborn学习笔记

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2019-08-18 18:58:44 491

原创 建模前数据去噪方法总结

数据在建模之前,有的时候会存在大量噪声,这个时候就需要去噪算法对原始数据进行去噪处理。目前了解到的去噪方法有:3标准差去噪,分箱去噪,dbscan去噪,孤立森林等。其中,3标准差去噪,对于正态分布的数据具有较好的去噪性能,而对于数据属于偏态分布时,使用分箱去噪相对较好。dbscan是基于数据聚类的原理进行去噪的,对于不属于类别之内的数据,视作离群点,输出结果为一个打标的矩阵,其中标记为-1的数据...

2018-09-07 15:13:20 24662

原创 ADF单位根检验方法

ADF检验,如果序列平稳,则不存在单位根,否则就会存在单位根。 若数据不平稳,则可以做差分变换,查看是否差分后平稳。 ADF原假设为,序列存在单位根,即非平稳,对于一个平稳的时序数据,就需要在给定的置信水平上显著,拒绝原假设。 若得到的统计量显著小于3个置信度(1%,5%,10%)的临界统计值时,说明是拒绝原假设的。另外是看P-value是否非常接近0.(4位小数基本即可)...

2018-08-15 13:31:48 55910

转载 hbase与mysql的区别

Hbase的优缺点 1 列的可以动态增加,并且列为空就不存储数据,节省存储空间.2 Hbase自动切分数据,使得数据存储自动具有水平scalability.3 Hbase可以提供高并发读写操作的支持Hbase的缺点:1 不能支持条件查询,只支持按照Row key来查询.2 暂时不能支持Master server的故障切换,当Master宕机后,整个存储系统就会挂掉.补充...

2018-08-13 11:51:01 14120

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除