Datamining


  数据集

1.一般特性 

 

a 维度 dimensionality  b 稀疏性 sparsity    c 分辨率 resolution

 

2 记录数据   

 

a 事物数据或者购物篮数据 transaction data   b 数据矩阵 data matrix  or pattern matrix

 

3 数据质量   

 

           测试误差 measurement error 收集误差   

           噪音   

           精度、偏倚、准确率   precision、bias  、 accuracy   

           离群点  outlier   

           遗漏值 

           不一致的值   

           重复数据 

 

预处理方法 

1.聚集  数据合并 

2.抽样       有放回、无放回  分层、渐进抽样(progressive sampling)

3.维归约       

 

维灾难       维归约的线性代数技术: 主成分析 principle compenents Analysis PCA   (用于连续属性、新的属性正相交), 奇异值分解(singular Value decomposition SVD)

 

4. 特征子集选择       嵌入方法 (熵)、 过滤方法(属性子集、评估、判断、last)、 包装方法(黑盒)

 

5.特征创建  -- 原来的属性创建新的属性集       特征提取-具体领域具体算法       映射数据到新的空间       特征构造  (多属性-一个属性  密度)

 

6 离散化和二元化(discretization  binarization)     

           二元化 - 离散属性转化为 0 1     

           离散化:非监督离散化-(等频、等宽、)  监督离散-熵-      

           具有过多值的分类  根据值的相似性,合并一个大组

 

7.变量变化

        简单函数      

        规范化和标准化

相似性和相异性的度量   

1. 定义  相似度 similarity  相异度dissimilarity

 

jaccard洗漱

余弦相似

相关性:皮尔森相关  pearson correlation

 

总结:稠密、连续数据,通常采用距离度量。稀疏数据用词使用0-0匹配的相似性度量 余弦、jaccard



 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值