机器学习
kingsure001
从现在开始
展开
-
机器学习中偏差方差是什么,如何解决高偏差,高方差
偏差: 描述模型输出结果的期望与样本真实结果的差距。方差: 描述模型对于给定值的输出稳定性。高偏差/欠拟合高方差/过拟合获得更多的训练实例——解决高方差尝试减少特征的数量——解决高方差尝试获得更多的特征——解决高偏差尝试增加多项式特征——解决高偏差尝试减少正则化程度 λ——解决高偏差尝试增加正则化程度 λ——解决高方差...原创 2020-09-05 17:34:56 · 862 阅读 · 0 评论 -
机器学习常见中函数(自用)
np.Insert():np.linalg.inv():np.dot(A, B):np.multiply(), 或 * :np.Insert():数据插入np.linalg.inv():矩阵求逆np.dot(A, B):同线性代数中矩阵乘法的定义,对于二维矩阵,计算真正意义上的矩阵乘积,同线性代数中矩阵乘法的定义。对于一维矩阵,计算两者的内积,与@一样np.multiply(), 或 * :对应元素相乘...原创 2020-09-05 17:24:20 · 515 阅读 · 0 评论 -
np.random系列函数用法
np.random.randint()np.random.randn()np.random.rand()np.random.randint()参数如下:numpy.random.randint(low, high=None, size=None, dtype='l')函数的作用是,返回一个随机整型数,其范围为[low, high)。如果没有写参数high的值,返回[0,low)的值。low: int表示生成的数值大于等于low。high: int (可选),如果使用这个值,则生成的数值在[l.原创 2020-08-11 14:59:25 · 6129 阅读 · 1 评论 -
吴恩达机器学习作业8-异常检测
题目概述: 在本练习中,我们将使用高斯模型实现异常检测算法,并将其应用于检测网络上的故障服务器。 我们还将看到如何使用协作过滤构建推荐系统,并将其应用于电影推荐数据集。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom scipy.io import loadmatdata = loadmat('E:/shujuji/ex8data1.mat')X = data['X']X.shape #(30.原创 2020-08-07 22:16:55 · 456 阅读 · 0 评论 -
吴恩达机器学习作业7-K-means/降维
我们将实施和应用K-means到一个简单的二维数据集,以获得一些直观的工作原理。 K-means是一个迭代的,无监督的聚类算法,将类似的实例组合成簇。 该算法通过猜测每个簇的初始聚类中心开始,然后重复将实例分配给最近的簇,并重新计算该簇的聚类中心。...原创 2020-08-07 20:08:57 · 926 阅读 · 0 评论 -
吴恩达机器学习作业6—支持向量机
题目概述:在本练习中,我们将使用高斯核函数的支持向量机(SVM)来构建垃圾邮件分类器数据集1 我们先在2D数据集上实验import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sbfrom scipy.io import loadmatraw_data=loadmat('E:/shujuji/ex6data1.mat')raw_datadata=pd.DataFrame.原创 2020-08-05 22:58:45 · 894 阅读 · 0 评论 -
吴恩达机器学习—异常检测
异常检测1 问题的动机2 高斯分布(也称正态分布)3 算法4 开发和评价一个异常检测系统5 异常检测与监督学习对比6 选择特征7 多元高斯分布(选修)8 使用多元高斯分布进行异常检测( 选修)异常检测1 问题的动机什么是异常检测呢?给定数据集 x(1) ,x (2) ,…,x(m) ,我们假使数据集是正常的,我们希望知道新的数据Xtest是不是异常的,即这个测试数据不属于该组数据的几率如何。我们所构建的模型应该能根据该测试数据的位置告诉我们其属于一组数据的可能性 p(x)。下图的红.原创 2020-08-05 16:42:35 · 670 阅读 · 0 评论 -
吴恩达机器学习-K-means/降维
K- 均值K- 均值算法优化目标随机初始化选择聚类数降维动机一:数据压缩动机二:数据可视化K- 均值K- 均值算法非监督学习中,我们的数据没有附带任何标签y,数据就是这样的我们需要将一系列无标签的训练数据,输入到一个算法中,然后我们告诉这个算法,快去为我们找找这个数据的内在结构给定数据。我们可能需要某种算法帮助我们寻找一种结构。图上的数据看起来可以分成两个分开的点集(称为簇),一个能够找到我圈出的这些点集的算法,就被称为聚类算法K- 均值是最普及的聚类算法,算法接受一个未标记的数据集,然后将数.原创 2020-08-05 10:57:00 · 1117 阅读 · 0 评论 -
吴恩达机器学习作业5——偏差/方差/训练集/验证集/测试集
这一部分,我们需要先对一个水库的流出水量以及水库水位进行正则化线性归回。然后将会探讨方差-偏差的问题1 数据可视化import numpy as npimport scipy.io as sioimport scipy.optimize as optimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsdata = sio.loadmat('E:/shujuji/ex5data1.mat')X,y,.原创 2020-08-02 21:22:23 · 598 阅读 · 1 评论 -
吴恩达机器学习——机器学习系统的设计/ 支持向量机
机器学习系统的设计引入误差分析不对称的分类(类偏斜)的误差度量查准率和召回率之间的权衡机器学习的数据支持向量机优化目标大边界的直观理解机器学习系统的设计引入我们谈及在设计复杂的机器学习系统时,你将遇到的主要问题。我们会试着给出一些关于如何巧妙构建一个复杂的机器学习系统的建议。这些东西是非常有用的,可能在构建大型的机器学习系统时,节省大量的时间。本周以一个垃圾邮件分类器算法为例进行讨论。为了解决这样一个问题,我们首先要做的决定是如何选择并表达特征向量????。我们可以选择一个由 100 个最常出现在原创 2020-08-02 11:33:27 · 356 阅读 · 0 评论 -
吴恩达机器学习-应用机器学习的建议
应 用 机 器 学 习 的 建 议引入评估一个假设模型选择和交叉验证集诊断偏差和方差正则化和偏差/ 方差学习曲线小总结、神经网络的方差和偏差应 用 机 器 学 习 的 建 议引入假如说你发现在预测房价时产生了巨大的误差,现在你的问题是要想改进这个算法,接下来应该怎么办?获得更多的训练实例——通常是有效的,但代价较大,下面的方法也可能有效,可考虑先采用下面的几种方法。1.尝试减少特征的数量2.尝试获得更多的特征3.尝试增加多项式特征4.尝试减少正则化程度λ5.尝试增加正则化程度λ运用一.原创 2020-08-01 11:54:07 · 206 阅读 · 0 评论 -
吴恩达机器学习作业4-反向传播神经网络
神经网络导入数据import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport matplotlibfrom scipy.io import loadmatfrom sklearn.preprocessing import OneHotEncoderdata=loadmat("E:\shujuji\ex4data1.mat")dataX=data["X"]y=data["y"]X.shape,y原创 2020-07-31 14:23:29 · 758 阅读 · 0 评论 -
Jupyter Notebook 的快捷键
Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。命令模式 (按键 Esc 开启)Enter : 转入编辑模式Shift-Enter : 运行本单元,选中下个单元Ctrl-Enter : 运行本单元Alt-Enter : 运行本单元,在其下插入新单元Y : 单元转入代码状态M :单元转入markdown状态R : 单元转入raw状态1 : 设定 1 级标题2 : 设定原创 2020-07-29 21:44:24 · 237 阅读 · 0 评论 -
机器学习作业3-多类别逻辑回归
多类别逻辑回归多分类数据集将逻辑回归向量化sigmoid 函数 代价函数向量化正则化逻辑回归一对多分类器一对多预测多分类多分类这个部分需要你实现手写数字(0到9)的识别。你需要扩展之前的逻辑回归,并将其应用于一对多的分类数据集这是一个MATLAB格式的.m文件,其中包含5000个20*20像素的手写字体图像,以及他对应的数字。另外,数字0的y值,对应的是10 用Python读取我们需要使用SciPyimport numpy as npimport pandas as pdimport m原创 2020-07-29 16:47:19 · 611 阅读 · 0 评论 -
吴恩达机器学习-神经网络-反向传播算法
神经网络-反向传播算法神经网络的学习神经网络模型特征和直观理解多类分类神经网络参数的反向传播代价函数反向传播算法反向传播算法的直观理解展开参数梯度检验综合起来(使用神经网络步骤)自主驾驶神经网络的学习无论是线性回归还是逻辑回归都有这样一个缺点,即:当特征太多时,计算的负荷会非常大,这时候我们需要神经网络神经网络模型神经网络模型建立在很多神经元之上,每一个神经元又是一个个学习模型。这些神经元(也叫激活单元,activation unit)采纳一些特征作为输出,并且根据本身的模型提供一个输出。下图是一个原创 2020-07-29 00:42:04 · 645 阅读 · 0 评论 -
吴恩达机器学习作业2-逻辑回归、正则化
机器学习笔记在分类问题中,你要预测的变量 ???? 是离散的值,我们将学习一种叫做逻辑回归 (Logistic Regression) 的算法,这是目前最流行使用最广泛的一种学习算法。与之前线性回归不同的是 它的y是0或1,是一种概率在训练的初始阶段,我们将要构建一个逻辑回归模型来预测,某个学生是否被大学录取。 设想你是大学相关部分的管理者,想通过申请学生两次测试的评分,来决定他们是否被录取。 现在你拥有之前申请学生的可以用于训练逻辑回归的训练样本集。对于每一个训练样本,你有他们两次测试的评分和原创 2020-07-24 22:13:29 · 1115 阅读 · 0 评论 -
吴恩达机器学习作业1-线性回归
题目概述: 整个2的部分需要根据城市人口数量,预测开小吃店的利润 数据在ex1data1.txt里,第一列是城市人口数量,第二列是该城市小吃店利润。用到2个公式:代价函数:批量梯度下降 进行优化:import numpy as npimport pandas as pdimport matplotlib.pyplot as plt#print(np.eye(5)) #简单练习path ='ex1data1.txt'data = pd.read_csv(path, header=.原创 2020-07-23 15:45:31 · 1022 阅读 · 0 评论 -
sklearn-决策树-红酒数据
from sklearn import treefrom sklearn.datasets import load_winefrom sklearn.model_selection import train_test_splitwine = load_wine()#导入数据#print(wine.target)#print(wine.data.shape)#标签Xtrain,Xtest,Ytrain,Ytest=train_test_split(wine.data,wine.target,tes原创 2020-07-22 20:52:28 · 3020 阅读 · 1 评论 -
机器学习-knn-海伦约会
题目概述:海伦一直使用在线约会网站寻找适合自己的约会对象。,她发现曾交往过三种类型的人:·不喜欢的人·魅力一般的人·极具魅力的人海伦无法将约会网站推荐的匹配对象归人恰当的分类海伦希望我们的分类软件可以更好地帮助她将匹配对象划分到确切的分类中。此外海伦还收集了一些约会网站未曾记录的数据信息,她认为这些数据更有助于匹配对象的归类。海伦的样本主要包含以下3种特征:每年获得的飞行常客里程数玩视频游戏所耗时间百分比每周消费的冰淇淋公升数与之前简单KNN算法不同的是此次数据量较大,需要引用文件,要.原创 2020-07-22 12:48:40 · 1227 阅读 · 0 评论 -
机器学习分类算法—knn-(动作片or爱情片)
本题:根据接吻次数和打斗次数来判断电影的类型k-近邻算法步骤如下计算已知类别数据集中的点与当前点之间的距离;按照距离递增次序排序;选取与当前点距离最小的k个点;确定前k个点所在类别的出现频率;返回前k个点所出现频率最高的类别作为当前点的预测分类。import numpy as npimport operator"""函数说明:创建数据集Parameters: 无Returns: group - 数据集 labels - 分类标签Modify: 2017-07-13"""原创 2020-07-21 14:07:51 · 1399 阅读 · 0 评论 -
numpy的矩阵切割
目的:在做数据处理时,必然用到矩阵,所以想对numpy的矩阵切割做一个自我的总结和探讨。当矩阵为一维时(即向量): #一维矩阵(向量)的切割类似于对列表/元组的切片a=arange(10)aarray([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])a[0:9] #从下标0开始切割到下标9(不包括9)array([0, 1, 2, 3, 4, 5, 6, 7, 8])a[:9] #等转载 2020-07-21 10:29:26 · 4087 阅读 · 0 评论 -
机器学习-线性回归-多元梯度下降法
目录标题线性回归多元线性回归正规方程线性回归我们的回归方程常写成如下形式:hθ(x)=θ0+θ1*X代价函数:J(θ)=12∑i=1m(hθ(x(i)−y(i))2看看代价函数到底是在干什么,如图梯度下降是一个用来求函数最小值的算法,我们将使用梯度下降算法来求代价函数最小例如:想象一下你正站立在山的这一点上,站立在你想象的公园这座红色山上,在梯度下降算法中,我们要做的就是旋转 360 度,看看我们的周围,并问自己要在某个方向上,用小碎步尽快下山。这些小碎步需要朝什么方向?如果我们站在山坡上的原创 2020-07-20 17:40:08 · 1916 阅读 · 0 评论