《数据挖掘:理论与算法》学习笔记
学堂在线—清华大学《数据挖掘:理论与算法》
时光机丶
伪文艺理工男
展开
-
《数据挖掘:理论与算法》学习笔记(一)—走进数据科学
什么是数据大概的意思是一些定量或者定性的属性,比如一个人的身高体重,年龄,性别,婚姻状况等等。信息信息比数据高一个层面,数据通过处理才叫信息。Data Rich,Information Poor数据非常多,但是从数据中挖掘出有用的数据非常少什么是大数据大数据的特点:high-volume,high-velocity,high-variety(数据量大、数据产生的速度快、数据的类型...原创 2019-05-10 18:51:32 · 2796 阅读 · 0 评论 -
《数据挖掘:理论与算法》学习笔记(二)—数据预处理(上)
数据预处理过程数据清洗—>数据转换—>数据描述—>特征选择—>特征提取为什么要进行数据预处理原始的数据不利于直接进行数据挖掘,因为:数据不完整存在错误数据数据存在重复信息数据量过大等等。。。如何解决丢失的数据问题进行选择性忽视人工补全(比如重新收集、经验填充)自动补全(利用数据的均值等)等等。。。离群点(Outlier)如何对这些...原创 2019-05-11 11:01:17 · 1255 阅读 · 0 评论 -
《数据挖掘:理论与算法》学习笔记(三)—数据预处理(下)
数据可视化(Data Visualization)借助于图形化手段,清晰有效地传达与沟通信息。一维数据比较简单,可以做成饼图、直方图、曲线等等…二维数据的可视化散点图,上图是汽车排量和加速度之间的关系图,我们可以对该二位数据做回归 Regression 看看它们之间有什么关系。三维数据的可视化但是当维度到四维或者更高的维度时,一般人很难想象这些高维的空间,也很难直接可视化出来,这...原创 2019-05-11 17:34:16 · 1008 阅读 · 0 评论 -
《数据挖掘:理论与算法》学习笔记(四)—贝叶斯分类
什么是分类分类是一项生存的基本技能,例如,动物对天敌和猎物进行分类。分类是一种有监督的学习,从数据中产生模型,输入一组样本特征后,能很好地将其归为某个类别。(包括二分类和多分类)贝叶斯定理如下所示,用于计算B事件发生的情况下A发生的概率朴素贝叶斯朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。...原创 2019-05-12 13:56:50 · 484 阅读 · 0 评论 -
《数据挖掘:理论与算法》学习笔记(五)—决策树
决策树模型决策树是一种用于对实例进行分类的树形结构。决策树由节点(node)和有向边(directed edge)组成。节点的类型有两种:内部节点和叶子节点。其中,内部节点表示一个特征或属性的测试条件(用于分开具有不同特性的记录),叶子节点表示一个分类。一旦我们构造了一个决策树模型,以它为基础来进行分类将是非常容易的。具体做法是,从根节点开始,地实例的某一特征进行测试,根据测试结构将实例...原创 2019-05-12 15:34:37 · 571 阅读 · 0 评论 -
《数据挖掘:理论与算法》学习笔记(六)—神经网络
感知机—神经网络最基本的模型感知机(perceptron)是二分类的线性分类模型,输入为实例的特征向量,输出为实例的类别(取1和0)。感知机对应于输入空间中将实例划分为两类的分离超平面。感知机旨在求出该超平面.其中,w0w_0w0 是一个偏差值,这个条件是必要的,如果没有这个条件,切平面会经过原点。我们需要这个偏差值控制决策平面到原点的距离。下图中感知机实现了与门和或门的功能为了求得...原创 2019-05-13 12:35:39 · 762 阅读 · 0 评论 -
《数据挖掘:理论与算法》学习笔记(七)—支持向量机
线性分类器原创 2019-05-13 22:07:44 · 512 阅读 · 0 评论 -
《数据挖掘:理论与算法》学习笔记(八)—聚类分析
1原创 2019-05-14 13:33:20 · 644 阅读 · 0 评论 -
《数据挖掘:理论与算法》学习笔记(九)—关联规则
关联规则例子:支持度与置信度关联规则的支持度关联规则的置信度例子Apriori算法原创 2019-05-15 20:42:41 · 782 阅读 · 0 评论 -
《数据挖掘:理论与算法》学习笔记(十)—推荐算法
信息爆炸时代推荐系统包括两种方式—基于内容的过滤和协同过滤隐含语义分析Tf-idfTF—出现频率IDF—在其他文档中出现的频率,(在其他文档也经常出现,则IDF值会比较低)向量空间模型相似度—余弦距离存在的问题LSA—隐含语义分析PageRank协同过滤...原创 2019-05-16 14:06:56 · 551 阅读 · 0 评论