- 博客(6)
- 问答 (11)
- 收藏
- 关注
转载 数据建模学习笔记
1 基础概念数据建模方法,一般分为三种:实体建模方法,维度建模方法,以及范式建模法。无论是哪种建模方法,都是使信息结构清晰,易于存储和读取。具体如下所述:a)实体建模方法实体是现实世界中存在的事物或发生的事件,是现实世界中任何可识别、可区分的事物。实体可以是人,可以是物,也可以是发生的某件事,比如一场篮球比赛。每一个实体都必须具备一定的特征,用来区分一个个实体,这些特征称为属性,每个实体可以...
2019-12-08 22:28:54
489
转载 hive中的lateral view 与 explode函数的使用
explode与lateral view在关系型数据库中本身是不该出现的,因为他的出现本身就是在操作不满足第一范式的数据(每个属性都不可再分),本身已经违背了数据库的设计原理(不论是业务系统还是数据仓库系统),不过大数据技术普及后,很多类似pv,uv的数据,在业务系统中是存贮在非关系型数据库中,用json存储的概率比较大,直接导入hive为基础的数仓系统中,就需要经过ETL过程解析这类数据,e...
2019-08-20 17:20:32
1397
原创 Python 可视化 seaborn学习笔记
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...
2019-08-18 18:58:44
491
原创 建模前数据去噪方法总结
数据在建模之前,有的时候会存在大量噪声,这个时候就需要去噪算法对原始数据进行去噪处理。目前了解到的去噪方法有:3标准差去噪,分箱去噪,dbscan去噪,孤立森林等。其中,3标准差去噪,对于正态分布的数据具有较好的去噪性能,而对于数据属于偏态分布时,使用分箱去噪相对较好。dbscan是基于数据聚类的原理进行去噪的,对于不属于类别之内的数据,视作离群点,输出结果为一个打标的矩阵,其中标记为-1的数据...
2018-09-07 15:13:20
24662
原创 ADF单位根检验方法
ADF检验,如果序列平稳,则不存在单位根,否则就会存在单位根。 若数据不平稳,则可以做差分变换,查看是否差分后平稳。 ADF原假设为,序列存在单位根,即非平稳,对于一个平稳的时序数据,就需要在给定的置信水平上显著,拒绝原假设。 若得到的统计量显著小于3个置信度(1%,5%,10%)的临界统计值时,说明是拒绝原假设的。另外是看P-value是否非常接近0.(4位小数基本即可)...
2018-08-15 13:31:48
55910
转载 hbase与mysql的区别
Hbase的优缺点 1 列的可以动态增加,并且列为空就不存储数据,节省存储空间.2 Hbase自动切分数据,使得数据存储自动具有水平scalability.3 Hbase可以提供高并发读写操作的支持Hbase的缺点:1 不能支持条件查询,只支持按照Row key来查询.2 暂时不能支持Master server的故障切换,当Master宕机后,整个存储系统就会挂掉.补充...
2018-08-13 11:51:01
14120
空空如也
使用Python中sklearn模块中的KMeans出错
2015-04-25
sklearn包中的KMeans大概的实现方法是什么啊?
2015-04-25
文本相似度的最后的精准率和召回率怎么实现啊?
2015-04-23
文本相似度分析的性能检测?
2015-04-23
Python怎么将列表,或者txt文件输出转化为字典啊?
2015-04-22
关于Python正则定理匹配的问题?
2015-04-16
Python怎么删除文本中的所有标点符号?
2015-04-15
菜鸟求助:关于python的正则匹配问题?
2015-04-15
Python使用正则表达式报错expected string or buffer
2015-04-14
TA创建的收藏夹 TA关注的收藏夹
TA关注的人