机器学习
文章平均质量分 83
charlie_wang007
纯属个人学习笔记,如有误人子弟,并非本义,有错误请不吝赐教,【线性代数部分来自大神3Blue1Brown的视频,请自行去搜索观看学习,我仅是自己的笔记而已】
展开
-
朴素贝叶斯的应用_TF-IDF实例
sklearn 的全称叫 Scikit-learn,它给我们提供了 3 个朴素贝叶斯分类算法,分别是高斯朴素贝叶斯(GaussianNB)、多项式朴素贝叶斯(MultinomialNB)和伯努利朴素贝叶斯(BernoulliNB)。这三种算法适合应用在不同的场景下,我们应该根据特征变量的不同选择不同的算法:高斯朴素贝叶斯 :特征变量是连续变量,符合高斯分布,比如说人的身高,物体的长度。多项式朴素贝叶斯 :特征变量是离散变量,符合多项分布,在文档分类中特征变量体现在一个单词出现的次数,或者是单词的 TF原创 2021-05-26 16:38:32 · 1924 阅读 · 0 评论 -
机器学习中的方差和偏差理解
一、Bias(偏差) & Variance(方差)偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。在机器学习中,这两个名词经常让我们傻傻分不清。我们不妨用案例来看看怎么区分。假设我们正在做一个分类器,分别在训练集和验证集上测试,以下为四种可能的情况:四种情况可见①、④两种情况的训练集误差都很小,接近optimal erro原创 2021-04-28 16:22:46 · 800 阅读 · 0 评论 -
核函数笔记
理解核函数之前前拦截下内积的几何意义内积:向量的点乘,也叫向量的内积、数量积,对两个向量执行点乘运算,就是对这两个向量对应位一一相乘之后求和的操作,点乘的结果是一个标量。//点乘的几何意义是可以用来表征或计算两个向量之间的夹角,以及在b向量在a向量方向上的投影,根据这个公式就可以计算向量a和向量b之间的夹角。从而就可以进一步判断这两个向量是否是同一方向,是否正交(也就是垂直)等方向关系,具体对应关系为: a·b>0 方向基本相同,夹角在0°到90°之间 a·b=0 正原创 2021-04-10 18:31:17 · 567 阅读 · 0 评论 -
神经网络
本文来源:新浪微博@李永乐老师https://weibo.com/ttarticle/p/show?id=2309404621504527597707#_0上一回为大家介绍了人工智能的基本概念和算法,讲到了梯度下降法、神经网络、机器学习的基本概念,还没看过的小伙伴可以点击这里。人工智能有一个重要领域就是图像识别。比如:有许多软件可以通过拍照的方法识别出不同的物体。我用它去拍摄我家的狗,发现它不仅能识别出这是狗,甚至还能够识别出狗的类型。大家想知道图像识别究竟是如何做到的吗?今天我们就来聊聊图像识转载 2021-04-02 16:51:43 · 352 阅读 · 0 评论 -
二阶线性回归简单代码
#!/usr/bin/python2# -*- coding:utf-8 -*-import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegression# from sklearn.metrics import r2_score# import statsmodels.api as smdata = pd.read_csv("A原创 2021-03-23 17:16:29 · 1330 阅读 · 0 评论 -
如何理解过拟合
4.过拟合过拟合即为特征过于局部,过于严格而导致机器学习丧失全局特征,给一群天鹅让机器来学习天鹅的特征,经过训练后,知道了天鹅是有翅膀的,天鹅的嘴巴是长长的弯曲的,天鹅的脖子是长长的有点曲度,天鹅的整个体型像一个“2”且略大于鸭子.这时候你的机器已经基本能区别天鹅和其他动物了。然后,很不巧你的天鹅全是白色的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅.–所以天鹅是白色的这个特征就是过拟合...原创 2020-12-18 16:30:12 · 383 阅读 · 1 评论 -
支持向量机ID3算法,CART算法
公司业务需要加入一些机器学习的算法,组织了培训,总结学习笔记和查阅的相关资料,后附本菜鸟的渣代码5.算法实例(计算信息熵,条件熵,信息增益)任务:根据天气预测否去打网球数据:这个数据集来自Mitchell的机器学习,叫做是否去打网球play-tennis,以下数据仍然是从带逗号分割的文本文件,复制到纪事本,把后缀直接改为.csv就可以拿Excel打开:play-tennis data,其中6个变量依次为:编号、天气{Sunny、Overcast、Rain}、温度{热、冷、适中}、湿度{高、正常}原创 2020-12-18 16:27:54 · 657 阅读 · 1 评论 -
拉格朗日乘数法笔记
https://www.yuque.com/charlie-4qfwo/kb/cnk2n5拉格朗日乘数法在数学最优化问题中,拉格朗日乘数法是一种寻找变量受一个或多个条件所限制的多元函数的极值的方法。这种方法将一个有n 个变量与k 个约束条件的最优化问题转换为一个有n + k个变量的方程组的极值问题,其变量不受任何约束。这种方法引入了一种新的标量未知数,即拉格朗日乘数(:约束方程的梯度(gradient)的线性组合里每个向量的系数梯度梯度:是一个矢量,其方向上的方向导数最大,其大小正好是此最大方向导数原创 2020-12-18 15:48:02 · 593 阅读 · 0 评论 -
朴素贝叶斯笔记和TD-IDF实例
1.贝叶斯定理贝叶斯定理是关于随机事件A和B的条件概率或边缘概率的定理。其中P(A|B)是在B发生的情况下A发生的可能性。是在已知相关项目B的资料,而缺乏论证项目A的直接资料时,通过对B项目的有关状态及发生概率分析推导A项目的状态及发生概率。在贝叶斯定理中,每个名词都有约定俗成的名称: P(A)是 A 的先验概率,之所以称为“先验”是因为它不考虑任何 B 方面的因素。 P(A|B)是已知 B 发生后 A 的条件概率,也由于得自 B 的取值而被称作 A 的后验概率。 P(B|A)是已知 A 发生原创 2020-12-18 15:40:35 · 699 阅读 · 0 评论