常用数据挖掘模型

最新推荐文章于 2024-06-05 09:48:41 发布

weixin_42024830

最新推荐文章于 2024-06-05 09:48:41 发布

阅读量2.1k

点赞数

分类专栏：数据挖掘和模型文章标签：简单数据模型数据挖掘

数据挖掘和模型专栏收录该内容

2 篇文章 0 订阅

订阅专栏

聚类和分类，物以类聚，人以群分

聚类

预先定义群数的K=means算法：知道能分成几堆

典型的基于距离的聚类算法，采用距离作为相似性的评价指标，两个对象的距离越近，其相似度越大

簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标

基于RFM模型的烟草客户聚类分析研究

？

从底层向上汇总的系统聚类方法，不知道分成几堆，探索相似性，看能分成几类

凝聚的层次聚类是一种自底向上的策略，首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有的对象都在一个簇中。

分裂的层次聚类与凝聚的层次聚类相反，采用自顶向下的策略，首先将所有对象置于同一个簇中，然后逐渐细分为不同的簇，直到所有对象自成簇

分类

相似度计算

欧氏距离，最简单的相似度计算方法

针对实数向量的余弦相似度，最常用的相似度计算方法

针对二元向量的杰卡德相似系数，典型应用，协同过滤

决策树

回归

研究一组随机变量和另一组变量之间关系的统计分析方法，又称多重回归分析

线性回归linear regression，结果是连续的线

逻辑回归logistics regression，结果是孤立的点

降维

数据的每一个特征都是一个维度

大数据的特点之一，就是维度，即有大量的特征

高维数据中包含了大量的冗余并隐藏了重要关系的相关性，降维的目的就是消除冗余，减少被处理数据的数量

找到数据众多特征的主要特征

主成分特征

P个指标作线性组合，作为新的综合指标

因子分析

市场调研：消费者习惯和态度研究，品牌形象和特性研究，服务质量调查，顾客，产品和行为分类

数据众多特征显示在二维图表上

对应分析

从因子分析基础发展起来的一种多元统计分析方法。他主要通过分析定性变量构成的列联表来揭示变量之间的关系

MDS分析

时间序列

根据已有的历史数据对未来进行预测

回归的主要区别是可以剔除周期的影响

大量金融化模型会用到时间序列

文本挖掘

Word2Vec:挖掘文本上下文之间的关系

Doc2Vec/LDA:文档分类

文本相似度：计算不同文档之间的相似度，也可以用来分类

weixin_42024830

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
常用数据挖掘模型

聚类和分类，物以类聚，人以群分聚类预先定义群数的K=means算法：知道能分成几堆典型的基于距离的聚类算法，采用距离作为相似性的评价指标，两个对象的距离越近，其相似度越大簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标基于RFM模型的烟草客户聚类分析研究？从底层向上汇总的系统聚类方法，不知道分成几堆，探索相似性，看能分成几类凝聚的层次聚类是一种自底向...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。