- 博客(7)
- 收藏
- 关注
原创 Kimball 维度建模技术 (1)
Kimball 维度建模技术(1)1 事实表技术基础1.1 事实表结构发生在现实世界中的操作型事件,其所产生的可度量数值,存储在事实表中。从最低的粒度级别来看,事实表行对应一个度量事件。因此事实表的设计完全依赖于物理活动,不受可能产生的最终报表的影响。1.2 可加、半可加、不可加事实事实表中的数字度量可划分为三类。 最灵活、最有用的事实是完全可加的,可加性度量可以按照与事实表关联的任意维度汇总。 半可加度量可以对某些维度汇总,但不能对所有维度汇总。
2021-09-08 19:08:55 331
原创 python实现堆排序
# 树是一种数据结构# 比如目录结构# 树是一种可以递归定义的数据结构# 树是由n个节点组成的集合# 比如n=0,那这是一颗空树# 如果n>0,那存在1个节点作为树的根节点,其它节点可以分成m个集合,每个集合本身又是一棵树# 基本概念# 二叉树:树的度不超过2的树,每个节点最多只有两个孩子节点,分别是左孩子节点和右孩子节点# 满二叉树,每个层的节点都达到最大值# 完全二叉树:叶节点只能出现在最下层和次下层,并且最下面一层的结点都集中在该层最左边的若干位置的二叉树
2020-11-07 15:15:28 167
原创 python实现三种简单排序方式
冒泡排序算法复杂度O(n^2)import numpy as npdef bubble_sort(li): for i in range(len(li)-1): exchange=False for j in range(len(li)-i-1): if li[j]>li[j+1] li[j],li[j+1]=li[j+1],li[j] print(li) .
2020-10-29 22:19:22 491
原创 python实现朴素贝叶斯文本分类案例
机器分类中,朴素贝叶斯分类简单又好用。案例如下:给某论坛的评论中识别语句,屏蔽掉侮辱性词汇。操作步骤如下:在文本数据转向量即词表向量转成数组向量,规定0是非侮辱性词汇,1是侮辱性词汇。这里先加载几个评论,(在预处理中可以用split()的方法,先把整个句子拆分成 以单词为单位的词表。这里不多叙述。)先提前引入一些计算数组的小零件from numpy import ones, log,arrayfrom numpy.ma import zerosdef loadDataset():
2020-10-28 20:04:46 2451
原创 python实现K折交叉检验实例
在样本数量不是很多的情况下,想要检验拟合一个完美的模型。最常见的方法就是K折交叉检验。写一个住房数据案例# 先把数据分成k个部分,把其中一个部分用作测试集,把其余部分用作训练集以拟合模型# 模型拟合好之后,使用测试集进行 测试,并计算误差。不断重复这个过程,知道k个部分都测试过。# 模型的最终误差是所有模型的平均值import pandas as pdhousing=pd.read_csv('housing_renamed.csv')from sklearn.model_selection
2020-10-20 13:04:22 4514 1
原创 python调用seaborn库实现数据可视化
吼吼,在预整理前,特意跑了跑代码,调出来十几张图,我能写到天亮吧。。。总的来说,画图可以借助pandas 里面的一个seaborn库来画图。代码简洁,款式新颖。单变量万物都从单变量开始。。seaborn 来画直方图特别好的一点是,它同时能够画出和密度曲线图。(说起核函数、核密度,因为在算法里出现太多次,就拜读了一个博主的博客,被博主非常规套路折服,等把无监督的机器分类跑完,想用自己的话整理一波核函数的应用)import seaborn as snsimport matplotlib.pypl
2020-10-19 12:40:50 881
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人