![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 65
cuilijuan02
这个作者很懒,什么都没留下…
展开
-
数据挖掘之随即森林
随即森林的特点原创 2015-08-26 15:40:43 · 577 阅读 · 0 评论 -
ID3算法
ID3是数据挖掘分类中的一种(是一种if-then的模式),其中运用到熵的概念,表示随机变量不确定性的度量H(x)=-∑pi *log pi信息增益是指特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差g(D,A)=H(D)-H(D|A)其中H(Y|X)=∑pi H(Y|X=xi)Pi=P原创 2015-08-26 16:00:23 · 505 阅读 · 0 评论 -
数据挖掘之CART剪枝
与上篇文章中提到的ID3算法和C4.5算法类似,CART算法也是一种决策树分类算法。CART分类回归树算法的本质也是对数据进行分类的,最终数据的表现形式也是以树形的模式展现的,CART与ID3,C4.5所采用的分类标准是不同了。下面列出了其中的一些不同之处:1、CART最后形成的树是一个二叉树,每个节点会分成2个节点,左孩子节点和右孩子节点,于是这就要求CART算法在所选定的属性中原创 2015-08-26 15:59:09 · 1805 阅读 · 0 评论 -
数据挖掘之数据归一化处理
数据归一化和两种常用的归一化方法 数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种常用的归一化方法:一、min-max标准化(Min-原创 2015-08-26 15:51:10 · 998 阅读 · 0 评论 -
数据挖掘之用户价值分析
谁在使用我的网站——用户忠诚和价值分析 前面介绍的都是一些用户的行为指标和用户细分,这里要介绍的是基于每个用户行为的综合性的分析和评定,主要包括用户的忠诚度和用户的价值。“以用户为中心”的理论要求网站不断优化改善用户的体验,进而提升用户的满意度,当用户的预期不断被满足时,用户就会喜欢上这个网站,进而发展成为网站的忠诚用户,同时不断地为网站输出价值。忠诚用户不但自身为网站创造价值转载 2015-08-26 15:47:45 · 9272 阅读 · 0 评论 -
数据挖掘之主题模型-LDA浅析
(一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。 举个例子,有两个句子分别如下: “乔布斯离我们而去了。” “苹果价格会不会原创 2015-08-26 15:45:51 · 2805 阅读 · 0 评论