聚类和分类,物以类聚,人以群分
聚类
预先定义群数的K=means算法:知道能分成几堆
典型的基于距离的聚类算法,采用距离作为相似性的评价指标,两个对象的距离越近,其相似度越大
簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标
基于RFM模型的烟草客户聚类分析研究
?
从底层向上汇总的系统聚类方法,不知道分成几堆,探索相似性,看能分成几类
凝聚的层次聚类是一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中。
分裂的层次聚类与凝聚的层次聚类相反,采用自顶向下的策略,首先将所有对象置于同一个簇中,然后逐渐细分为不同的簇,直到所有对象自成簇
分类
相似度计算
欧氏距离,最简单的相似度计算方法
针对实数向量的余弦相似度,最常用的相似度计算方法
针对二元向量的杰卡德相似系数,典型应用,协同过滤
决策树
回归
研究一组随机变量和另一组变量之间关系的统计分析方法,又称多重回归分析
线性回归linear regression,结果是连续的线
逻辑回归logistics regression,结果是孤立的点
降维
数据的每一个特征都是一个维度
大数据的特点之一,就是维度,即有大量的特征
高维数据中包含了大量的冗余并隐藏了重要关系的相关性,降维的目的就是消除冗余,减少被处理数据的数量
找到数据众多特征的主要特征
主成分特征
P个指标作线性组合,作为新的综合指标
因子分析
市场调研:消费者习惯和态度研究,品牌形象和特性研究,服务质量调查,顾客,产品和行为分类
数据众多特征显示在二维图表上
对应分析
从因子分析基础发展起来的一种多元统计分析方法。他主要通过分析定性变量构成的列联表来揭示变量之间的关系
MDS分析
时间序列
根据已有的历史数据对未来进行预测
回归的主要区别是可以剔除周期的影响
大量金融化模型会用到时间序列
文本挖掘
Word2Vec:挖掘文本上下文之间的关系
Doc2Vec/LDA:文档分类
文本相似度:计算不同文档之间的相似度,也可以用来分类