数据挖掘
文章平均质量分 78
bensonrachel
这个作者很懒,什么都没留下…
展开
-
Kaggle首战-入门Titanic挑战的记录和相关学习(决策树、随机森林、线性回归、逻辑回归)记录
作为一名研究大数据领域的学生,最近因为有点空,想起Kaggle这个网站在收藏夹里呆了可能有3、4年,吃了这么久的尘,才注册一个账号真正去尝试一下。remember “Make your hands dirty”。看了一些对于这个kaggle的入门和操作,便开始对最基本的一个挑战下手学习。温馨提示:注册过程和上传结果(CLI方式不用,网页方式需要)的过程都是需要科学上网的。这里可以看到这是两次提交的结果。鉴于有些使用方法和介绍其他博主已经说的很详细,这里mark过来记录一下。经典博客之作、使.原创 2021-03-10 19:43:31 · 411 阅读 · 1 评论 -
数据挖掘-基础知识-笔记汇总12:神经网络-并行计算
课程笔记第十一篇本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘:理论与算法》。视频在学堂在线或者b站都有。第四章第一节-神经网络:神经网络模拟的是人的大脑,进行并行计算。且计算机元器件的速度远远高于人的大脑神经元的速度。神经元又被称为感知机Perceptron;输入为各个属性,需要与权重作内积。n个输入属性,n+1个权重。w0必须有,x0为1;实际上是形成一个判别平面,如果没有w0,这个平面永远都要经过原点。感知机能做什么?可以实现与门(and)、或门(原创 2020-09-15 21:16:45 · 1476 阅读 · 0 评论 -
数据挖掘-基础知识-笔记汇总11:贝叶斯与决策树-建决策树
课程笔记第十篇本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘:理论与算法》。视频在学堂在线或者b站都有。第三章第四节-建决策树:该问题就是做如何建一颗更小更短的树。经典算法:ID3:目标是选择更好区分度更大的属性,然后放在树的上面。那么如何选择一个更有效能的属性呢?就要用到我们之前学过的熵的概念了。点这里信息增益越大越好,即选择一个能对系统的不确定性降低更多的属性。属性用过的不能再用,直到最纯或者没有属性了为止,不纯的话就用多的做结果,如果相等可原创 2020-09-12 16:20:38 · 317 阅读 · 0 评论 -
数据挖掘-基础知识-笔记汇总10:贝叶斯与决策树-决策树
课程笔记第九篇本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘:理论与算法》。视频在学堂在线或者b站都有。第三章第三节-决策树:DT(决策树)是一种自顶而下的树状结构。一层一层地去做决策的这样一个模型。比较符合人的思维逻辑的分类器,可解释性好。例子:树状:然而这棵树并不唯一:1.决策树可以提取规则;2.决策树可以不唯一;3.更倾向于使用更简单的树;...原创 2020-09-11 23:15:12 · 504 阅读 · 0 评论 -
数据挖掘-基础知识-笔记汇总9:贝叶斯与决策树-朴素贝叶斯定理
课程笔记第八篇本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘:理论与算法》。视频在学堂在线或者b站都有。第三章第二节-朴素贝叶斯定理:理论上用第三条式子去计算,因为理论上的式子在实际中很难精确计算,因为属性多,实际上用最后的式子计算,做了一个假设,假设它们之间条件独立。假设这些属性在类出现的时候是独立的。因为是乘积,所以一旦出现了一个为0,就不行了,所以要进行拉普拉斯平滑处理。NB可用于离散型数据,也可以用于连续性数据。可用于非常多的场合,算出某一个概率,然后最有可原创 2020-09-10 22:55:02 · 278 阅读 · 0 评论 -
数据挖掘-基础知识-笔记汇总8:贝叶斯与决策树-贝叶斯
课程笔记第七篇本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘:理论与算法》。视频在学堂在线或者b站都有。第三章第一节-贝叶斯:以上是著名的贝叶斯公式。P(A)、P(B)是先验概率的意思。...原创 2020-09-09 20:37:39 · 367 阅读 · 0 评论 -
数据挖掘-基础知识-笔记汇总7:数据预处理-线性判别方法LDA之详细例子
课程笔记第六篇本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘:理论与算法》。视频在学堂在线或者b站都有。第二章第七节下-LDA(线性判别方法)之详细例子:PCA做法:使用matlab直接计算即可。Z矩阵为协方差矩阵,计算方法直接百度,有很多文章都写得很详细。V矩阵为特征向量矩阵,D对角线为特征值,毫无疑问应该选择特征值最大的那个的对应的特征向量的方向作为投影的线方向。LDA做法:LDA区分开了两个类别的。图:LDA选择的方向散度要窄一原创 2020-09-08 14:16:08 · 420 阅读 · 0 评论 -
数据挖掘-基础知识-笔记汇总6:数据预处理-线性判别方法LDA
课程笔记第五篇本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘:理论与算法》。视频在学堂在线或者b站都有。第二章第七节上-LDA(线性判别方法):上篇所讲述的PCA并不适用于分类问题,不考虑分类类别的,是一种无监督的方法。因此,有标签的数据,使用LDA的方法,也是降维,但是是能把类别区分开,不重合。费舍判别准则J越大越好,分子是两个类别的均值差的绝对值平方,分母是两个类别的方差,分子越大越好,分母越小越好。同样使用数学方法进行优化,最终得到还是一个特征方程,且原创 2020-09-07 21:21:48 · 232 阅读 · 0 评论 -
数据挖掘-基础知识-笔记汇总5:数据预处理-主成分分析(PCA)和特征提取
课程笔记第四篇本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘:理论与算法》。视频在学堂在线或者b站都有。第二章第六节-主成分分析(PCA)和特征提取:注明:此节需要提前学习高等数学及线性代数的相关知识,里面用到拉格朗日乘数法(条件最值),特征值,特征向量,矩阵运算等知识。特征提取包含特征选择,做特征提取就要做主成分分析,选择好的成分(特征)来进行提取,有效信息保留多才是好的。二维例子:方差variance——>信息,数据延某一属性的方差越大,散度越大,区分度大原创 2020-09-04 22:08:05 · 1155 阅读 · 0 评论 -
数据挖掘-基础知识-笔记汇总4:数据预处理-特征选择
课程笔记第三篇本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘:理论与算法》。视频在学堂在线或者b站都有。第二章第五节-特征选择:特征选择就是要找出那些数据中好的属性。熵entropy:衡量一个系统或者变量的值的不确定性,不确定性越大,熵值越大。例如,如果男人和女人都是50%的话,这个时候是最不确定一个人的性别的,这个时候的熵值就会很高。在0.5时熵最高为1,0或者1的时候熵值是最低的。信息增益information gain:当你知道一个额外的属性的原创 2020-09-03 20:23:10 · 427 阅读 · 0 评论 -
数据挖掘-基础知识-笔记汇总3:数据预处理-数据描述与可视化
课程笔记第二篇本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘:理论与算法》。视频在学堂在线或者b站都有。第二章第四节-数据描述与可视化:由于很多数据本来是没有单位,所以要进行数据的标准化,比如把数据映射到0-1之间。标准化的方法有0-1标准化即min-max标准化(Min-max normalization),z-score 标准化(zero-meannormalization)z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的原创 2020-09-02 22:19:26 · 335 阅读 · 0 评论 -
数据挖掘-基础知识-笔记汇总2:数据预处理-类型转换与采样
课程笔记第一篇本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘:理论与算法》。视频在学堂在线或者b站都有。第二章第三节-类型转换与采样:数据一般分为:连续型(continuous)、离散型(discrete)、序数型(oordinal)、标称型(nominal)、无结构数据(例字符串)型。各种类型的数据举例如下:注意:1.序数型是有顺序的,如评等级:A、B、C、D。 2.标称型不能绝对的使用0 1 2这样给每个属性编码,原因是如果这样编码,就会...原创 2020-09-01 16:09:53 · 620 阅读 · 0 评论 -
数据挖掘-基础知识-汇总笔记1
分类:有监督;聚类:无监督;1.k-means:连续型,数值型数据,使用欧式距离(余弦距离)“大哥-小弟”的例子,无监督学习算法;形心均值是相加再除即可;对异常值敏感--k-medoids:形心均值改为中心点,在每个聚簇中按照顺序依次选取点,计算该点到当前聚簇中所有点距离之和,最终距离之和最小的点,则视为新的中心点。计算量比上一个大。2.k-modes;只是处理分类变量数据;使用汉明距离:不同属性值的个数, 差异度越小,则表示距离越小3.fuzzy k-modes;模糊;1999年论原创 2020-09-01 13:01:42 · 400 阅读 · 0 评论