机器学习笔记
文章平均质量分 61
机器学习笔记
Jeremy Liang
这个作者很懒,什么都没留下…
展开
-
统计学习、机器学习的基础知识汇总
数学概念 偏序关系 互信息 F1值,精确率,召回率 TP(True Positive) -- 将正类预测为正类FN(False Negative) --将负类预测为负类FP(False Positive) --将负类预测为正类TN(True Negative) --将正类预测为负类精确率(我预测了100个样本是对的,但实际上只有99个是真的对的,R=9...原创 2018-11-28 16:03:55 · 536 阅读 · 0 评论 -
机器学习算法笔记--------建立西瓜数据集
西瓜书里面常用的三个数据集,西瓜数据集2.0,3.0,4.0整理如下,注意中文容易出现乱码。西瓜数据集2.0西瓜数据集3.0西瓜数据集4.0 import pandas as pddef createDataSet_2(): dataSet_2 = [ # 1 ['青绿', '蜷缩', '浊响', '清晰', '凹陷',...原创 2018-12-04 10:04:01 · 6707 阅读 · 2 评论 -
机器学习算法笔记--------朴素贝叶斯
拉普拉斯平滑 保证不会出现0概率,每个概率都是0-1,概率总和为1 似然度,置信度 先验概率,后验概率 先验概率:P(X) ,P(Y)后验概率:P(X|Y) ,P(Y|X)贝叶斯公式: 例子(通过简单例子理解朴素贝叶斯的基本思想) 例一:癌症检测结果分析目标:根据先验概率P(Y)(患病和无患病的比例)和后验概率P(X|Y)(患病同时被检测出患病...原创 2018-11-29 17:43:42 · 297 阅读 · 0 评论 -
机器学习算法笔记--------决策树
摘要决策树包含三个主要过程:特征选择,决策树生成,决策树剪枝。其核心思想是计算集合无序程度,主要算法有ID3,C4.5和CART背景知识信息熵假设变量X的可能取值为Xi,i=1,2,……,n。变量X取值为Xi的概率为:那么随机变量X的信息熵为:条件熵变量Y在给定条件X下的信息熵:信息增益定义:特征A对训练数据集D的信息增益,g(D,A), 定义为集合D...原创 2018-11-27 14:54:21 · 423 阅读 · 0 评论 -
机器学习算法笔记--------K-近邻算法
基本思想: 假设训练集中每个数据都是已标记的数据。 当输入一个新样本的时候,将新样本的特征和数据集中的数据进行特征比对。 找出最相似的前k个数据。(欧式距离-L2范数,闵科夫斯基距离-Lp范数) 统计这k个数据的标签,其中出现频率最高的一个标签,就是我们的预测结果。(多数表决) 优缺点: 优点:精度高 缺点:计算复杂度高,空间复杂度高。没有显...原创 2018-11-21 10:07:18 · 187 阅读 · 0 评论