数据挖掘笔记
文章平均质量分 59
数据挖掘课作业,很水很没有价值的笔记
晴崽噼里啪啦
啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊
展开
-
数据挖掘课笔记(一)
这里写自定义目录标题1 本章导图2 学习资源2.1 国际会议2.2 部分期刊2.3 网站3 部分重点知识以下笔记来自于学堂在线上清华大学的视频网课《80240372X 数据挖掘:理论与算法》,本笔记仅用于个人学习。如有错误,感谢指正。1 本章导图2 学习资源2.1 国际会议International Conference on Data MiningInternational Conference on Data EngineeringInternational Conference on原创 2021-09-26 19:24:45 · 147 阅读 · 0 评论 -
数据挖掘课笔记(二)
以下笔记来自于学堂在线上清华大学的视频网课《80240372X 数据挖掘:理论与算法》,本笔记仅用于个人学习。如有错误,感谢指正。原创 2021-10-09 11:51:25 · 109 阅读 · 0 评论 -
数据挖掘课笔记(三)
以下笔记来自于学堂在线上清华大学的视频网课《80240372X 数据挖掘:理论与算法》,本笔记仅用于个人学习。如有错误,感谢指正。贝叶斯公式:而对于多属性:中P(a1,a2,···,an)部分并不好求,所以实际计算公式如下:要使用这个式子,必然要求各属性不相关。...原创 2021-10-10 14:40:35 · 195 阅读 · 1 评论 -
数据挖掘课笔记(四)
以下笔记来自于学堂在线上清华大学的视频网课《80240372X 数据挖掘:理论与算法》,还参考了清华大学出版社的《机器智能》一书,本笔记仅用于个人学习。如有错误,感谢指正。本章框架如下:具体内容如下:1.大脑皮层大规模并行处理很强的容错性很强的自适应能力2.生物神经系统神经系统表现出来的一切兴奋、传导和整合等机能特性神经元结构:细胞体、树突、轴突突触:轴突末端分出末梢+其他神经元的树突3.生物神经网络由大量的生物神经元和突触通过复杂连接而形成的网络结构4.人工神经元原创 2021-10-20 23:33:14 · 152 阅读 · 0 评论 -
数据挖掘笔记(五)
以下笔记来自于学堂在线上清华大学的视频网课《80240372X 数据挖掘:理论与算法》,本笔记仅用于个人学习。如有错误,感谢指正。一、简介特点:有监督学习,为二分类模型分割原则:间隔最大化训练样本 线性可分 / 近似线性可分 / 线性不可分:线性可分支持向量机 / 线性支持向量机 / 非线性支持向量机二、最大间隔对margin的理解:仍能满足分割的超平面区间(支持能够分割的向量)。对最大间隔的理解:最大最宽的margin(有的“斜度”的margin将很窄),由于我们的目标是:使离分割线原创 2021-11-11 10:36:42 · 742 阅读 · 0 评论 -
数据挖掘笔记(六)
以下笔记来自于学堂在线上清华大学的视频网课《80240372X 数据挖掘:理论与算法》,本笔记仅用于个人学习。如有错误,感谢指正。一、聚类简介对数据集划分的簇应满足:簇内距离尽量小,簇间距离尽量大。聚类属于无监督学习:无标签,且聚类结果没有对错之分。应用:市场营销对客户划分、地震对区域划分、社区发现、色块聚类做图像分割等要求:需要处理任意形状的数据、能处理噪点和离群点等坐标变换的选取、标准化的与否等预处理都可能会造成不同的结果!二、K-Means算法太常用了,不细写过程了。优点:对球原创 2021-11-11 11:13:51 · 1131 阅读 · 0 评论 -
数据挖掘课笔记(七)
以下笔记来自于学堂在线上清华大学的视频网课《80240372X 数据挖掘:理论与算法》,本笔记仅用于个人学习。如有错误,感谢指正。一、频繁集定义:item:项,或元素。transaction:全部项的非空子集。dataset:数据库,所有transaction。itemset:项集,一组共同出现的项。k-itemset:含k个项的itemset。频繁项:在多个项集里频繁出现的项。频繁项集:频率高的项构成的集合,需满足一定阈值条件。极大频繁项集:元素个数最多的频繁项集合。指标项集原创 2021-11-18 21:33:53 · 1035 阅读 · 0 评论 -
数据挖掘课笔记(八)
以下笔记来自于学堂在线上清华大学的视频网课《80240372X 数据挖掘:理论与算法》,本笔记仅用于个人学习。如有错误,感谢指正。推荐算法关于“推荐”:例如搜索引擎的RANK算法,能够把和搜索词更相关的网页推荐给用户。推荐算法解决的是信息过载的问题,算法分为两大类:1.内容:根据用户已有的内容。2.协同过滤:根据类似用户的评价。应用:精准广告投放、音乐推荐等。一、TF-IDF:量化关联度TF: Term Frequency(频率)tf(t,d)=nt,d∑knt,dtf(t,d)=\fr原创 2021-11-19 15:49:04 · 784 阅读 · 0 评论 -
数据挖掘课笔记(九)
以下笔记来自于学堂在线上清华大学的视频网课《80240372X 数据挖掘:理论与算法》,本笔记仅用于个人学习。如有错误,感谢指正。一、集成学习(ensemble learning)理解:将训练集传到多个分类器,再有策略地将结果结合在一起,结果综合考虑了各个分类器的分类结果。目的:提高分类器的准确度;克服弱分类器自身的缺点。集成学习是一大门类算法,分为Bagging和Boosting两大门类算法。过程:精髓:1.model selection:这些分类器的结果,我不选了,我全要2.Divid原创 2021-12-05 15:44:51 · 299 阅读 · 0 评论