降维:可以看成是一个函数,输入D维的数据,产出M维的向量
例子:淘宝店铺的特征,有非常多的维度,包括‘销售量’,‘宝贝分类’,‘宝贝价格’,‘评论数’..........
假设有两维特征是‘浏览量’和‘访客量’,这两者之间具有强相关性,直觉上删除一个并不会造成多大的信息损失
以上就是一个朴素的降维方法
要求:既能降低维度,又能使损失的信息尽量少
我们最后的理想目标,应该是表中的每个指标,都是弱关联,以此来获得一个完美的维度表。
————————————————————————————————————————————————————————
事实表:用来存储主题的主干内容
一般没有主键,数据的质量完全由业务系统把握。强调事实,即实际的东西。
维度表:可以看做是用户来分析数据的窗口
维度表就是你观察该事务的角度,是从哪个角度去观察这个内容的。
例:
某地区商品的销量,是从地区这个角度观察商品销量的。
事实表就是销量表&#x