机器学习
文章平均质量分 69
D.Guan
怕什么真理无穷 进一步有进一步的欢喜
展开
-
算法面试基础:LR(逻辑回归)
逻辑回归 logistic分布函数和密度函数,手绘大概的图像 ...转载 2020-10-22 18:01:59 · 271 阅读 · 0 评论 -
算法面试基础:SVM
SVM简单介绍SVMSVM是一个二分类的方法,通过最大化超平面距离正负样本之间的距离实现最大化间隔来进行分类。由于是存在约束条件,不好求解,所以借助拉格朗日法转化为无约束问题,求解其对偶问题,再使用SMO算法求解析解。从分类平面,到求两类间的最大间隔,到转化为求间隔分之一等优化问题:loss=min(1/2·||W||·||W||) subject to:y(wx+b)>=1,其中||·||为2范数 然后就是优化问题的解决办法,首先是用拉格拉日乘子把约束优化转化为无约束优化,对各个变量求导原创 2020-10-22 15:41:25 · 182 阅读 · 0 评论 -
浅谈半监督学习
1.生成模型2.自学习3.基于图的方法4.平滑假设原创 2018-11-18 14:45:57 · 3489 阅读 · 3 评论 -
降维(二)LLE+t-SNE+auto-encoder(李宏毅机器学习)
LLE:Locally Linear Embedding首先引入一下这个想法:在图中可以看出,在原来的数据中,1与2是距离比较近的,因为你要到达3需要经过2,而降维后我们会导致表示结果中(1和3)比(1和2)近,因此我们需要解决这个问题:采取记录原始”权重“的办法。step1:学习原始数据中xi,xjx_i,x_jxi,xj之间的关系。然后保持权重wijw_ijwij不变,来评...原创 2018-11-18 21:05:10 · 844 阅读 · 0 评论 -
降维(一)PCA (李宏毅机器学习)
PCA、LLE、SNE、auto-encoder原创 2018-11-18 20:11:30 · 1188 阅读 · 1 评论 -
CNN与为什么要做DNN(Deep neural network)(李弘毅 机器学习)
CNN整体过程1.整体架构卷积操作(convolution):可以进行卷积操作是因为对于图像而言,有些部分区域要比整个图像更加重要。并且相同的部分会出现在不同的区域,我们使用卷积操作可以降低成本。比如,我们识别鸟,鸟嘴部分的信息很重要,通过这个鸟嘴,我们就可以识别出这个是一只鸟。鸟不止一种类型,用很多种类,但鸟嘴都是大同小异的,所以对于鸟嘴的这个特征,我们就可以使用相同的函数进行识别,从而...原创 2018-11-03 13:08:12 · 1674 阅读 · 0 评论 -
无参估计(上):KNN(K nearst neighbor)
无参估计:根据直方图定义概率公式:,其中V:the volume surrounding X,N:the total number of examplesk:the number of the example inside V.我们将无参估计分为两类:固定V,求解k (KDE) 固定k,求解V(kNN)本讲围绕kNN展开。依旧从,我们对V进行定义:,其中R是点x与k个临近点之间...原创 2018-10-26 22:50:14 · 2029 阅读 · 0 评论 -
深度学习模型遇到的问题以及解决的tips(李弘毅机器学习-Tips for deep learning)
在深度学习过程中,我们会遇到很多问题,并不是所有的问题都是overfitting。比如下面这个很经典的例子:这个例子中,随着迭代次数的增加,50-layers的网络在训练集上本身就比20-layers的网络表现差。而在测试集上也表现差,这类问题我们不能只看测试集的结果就说是一个overfitting的例子。还要看训练集。因此,在深度学习的过程中我们会遇到很多问题,不同的问题有不同的解决办法。...原创 2018-10-29 16:59:06 · 1176 阅读 · 0 评论 -
EM算法详细推导
数学基础 公式推导 习题1.数学基础在推导EM算法之前,我们给出两个要用到的数学知识。1.1Jensen不等式设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。当x是向量时,如果其hessian矩阵H是半正定的(),那么f是凸函数。如果或者,那么称f是严格凸函数。 Jensen不等式: 如果f是凸函数,X是随机变量,那么 特别地,如果f是严格凸...原创 2018-10-25 22:02:29 · 899 阅读 · 0 评论 -
Ensemble Learning(一):Bagging,Boosting
本文从监督学习的角度来展开,主要包含bagging,boosting,随机森林(后面补)。一、BaggingBagging的方法主要针对那些很复杂容易overfitting的分类器。这种方法又称为boostrap aggregating(自举汇聚法)。是一种基于数据随机重采样的分类器构建方法。也就是说假设我们有一个原始数据集S,我们对其进行多次随机采样,得到S个新的与原始数据集大小相同的数据...原创 2018-12-26 20:44:11 · 321 阅读 · 0 评论 -
Self Scaled Regularized Robust Regression
Self Scaled Regularized Robust Regression论文思路介绍(创新点与相关研究比较)本文主要针对在外点(outliers)噪声的情况下,建立一个鲁棒的线性映射。建立目标函数,最大化内点数量或者最小化外点数量。本文最终的目标函数是最小化外点数量。与其他相关研究相比,本文主要有以下创新点:1.本文是直接对model的set进行稀疏处理(sparsify)而不是对...原创 2019-03-01 11:39:50 · 166 阅读 · 0 评论 -
python机器学习及实践-第一章
癌症预测问题代码详解 读取文件import pandas as pd#pandas库有一个read_csv的函数 可以读取.csv文件df_train=pd.read_csv('../Desktop/python/Datasets/Breast-Cancer/breast-cancer-train.csv')df_test=pd.read_csv('../Desktop/python/...原创 2019-03-02 11:46:00 · 520 阅读 · 0 评论 -
python机器学习及实践-第二章
1.监督学习代码import pandas as pdimport numpy as npcolumn_names=['Sample code number','Clump Thickness','Uniformity of Cell Size','Uniformity of Cell Shape','Marginal Adhesion','Single Epithelial Cell ...原创 2019-03-11 13:17:43 · 724 阅读 · 0 评论 -
windows 环境下 Anaconda3安装gensim
前提条件:Anaconda的安装路径添加到了系统环境变量。 以管理员身份打开cmd,进入Anaconda安装路径:使用conda install gensim安装,我之前用pip install gensim安装会报错。 ...原创 2019-03-16 20:13:43 · 1125 阅读 · 0 评论 -
windows Anaconda3安装xgboost
前提条件:Anaconda的安装路径已经添加到环境变量。 首先下载xgboost的安装包,放入到Anaconda的scripts的文件夹中,从cmd中进行该文件夹,使用pip install xgboost进行安装。 ...原创 2019-03-16 20:47:41 · 232 阅读 · 0 评论 -
python机器学习及实践 第三章3.1
特征抽取:对特征进行向量化:根据词频;根据词频和文档频率;以及是否考虑停用词。stop_word=‘english'表示考虑英语中常有的停用词。measurements=[{'city':'Dubai','temperature':'33.'},{'city':'London','temperature':'12.'},{'city':'San Fransisco','temperature'...原创 2019-03-17 20:42:21 · 301 阅读 · 0 评论 -
python机器学习及实践 第三章3.2
自然语言处理包NLTK:进行语言学分析,进行分词以及词性标注#使用词袋法对文本进行向量化sent1='The cat is walking in the bedroom.'sent2='A dog was running across the kitchen.'from sklearn.feature_extraction.text import CountVectorizercoun...原创 2019-03-17 20:55:55 · 513 阅读 · 2 评论 -
用tensorflow实现minist手写数字识别
代码:import pandas as pdimport tensorflow as tfimport numpy as np#加载数据train=pd.read_csv('../Desktop/DataSets/MINIST/train.csv')test=pd.read_csv('../Desktop/DataSets/MINIST/test.csv')X_train=tra...原创 2019-03-25 10:05:47 · 593 阅读 · 0 评论 -
神经网络反向传播Backpropagation(李弘毅机器学习)
神经网络反向传播Backpropagation一、深度学习三部曲:定义一个函数model评估这个函数model选出最好的函数二、定义神经网络本次学习使用的是全连接前馈神经网络(Fully Connect Feedforward Network)以上图为例,此处所采用的sigmoid函数是1+1/e−z1+1/e^{-z}1+1/e−z。也就是节点的activation是sigm...原创 2018-10-28 22:51:28 · 501 阅读 · 0 评论 -
机器学习基础介绍以及线性回归(Regression)【吴恩达1-2+李弘毅1-2】
机器学习基础知识1.机器学习基础模块机器学习三要素:T(任务) P(性能) E(经验)1)监督学习(Supervised Learning)(有标签的学习)三个主要步骤:step1:定义Model Step2:找好的模型 Step3:评估得到最好的模型。2)强化学习(不会给出答案,但会给出...原创 2018-09-03 14:43:07 · 322 阅读 · 0 评论 -
【吴恩达】第12章机器学习学习收获
误差分析1.与学习曲线一样,误差分析也是检验学习算法。可以用交叉验证集进行手动检查,也可以通过数值估计得办法:利用对比的方法来分析。2.偏斜类:偏斜类是说有两种样本,一种样本的数量远远高于其他样本的数量,于是我们忽略了输入X的情况,将所有的y都设置为较多的那一类样本的值。这种情况下我们使用交叉验证错误率(这是种分类错误率)的方法检验不出来错误,也无法改进。于是,引进查准率和召回率。3....原创 2018-09-19 17:21:09 · 322 阅读 · 0 评论 -
【吴恩达】机器学习第10章学习收获
神经网络总结step1:选择神经网络架构确定输入单元数(一般与训练集特征数相符)、输出单元数、以及隐藏层。如果隐藏层大于1层,那么所有的隐藏层的单元数应该相等。如图:输出单元为3,输出单元为4,隐藏层单元数为5。如果训练集(x,y),y有四个值{1,2,3,4}那么需要用向量来表示如4可以表示为step2:初始化权重在逻辑回归或者线性回归问题中,我们使用梯度下降方法时,初始...原创 2018-09-13 16:56:44 · 308 阅读 · 0 评论 -
【吴恩达】机器学习第9章学习收获
1.神经网络构成:输入层(x)、输出层(y)、隐藏层(不是输入也不是输出就是隐藏层)2.神经网络结构:如图,Layer1为输入层,Layer3为输出层,Layer2为隐藏层。在每条连线上都有一个权重。首先解释一下意思:表示第j层第i个单元。比如表示第2层第一个单元(或者说节点)。表示从第j层到第j+1层的权重。的维度是,由上面可见,第j层有3个单元,所有维度为3*4...原创 2018-09-10 22:07:19 · 243 阅读 · 0 评论 -
【吴恩达】机器学习第8章学习收获以及编程题
1.过拟合问题所谓过拟合问题是说变量过多的一些扭曲的无限可以完全拟合当前的数据集但无法适用于新的数据输入。这一类现象通常表现出高方差。欠拟合是说无法拟合当前数据,达到目标。2.如何解决过拟合问题:2.1一种是通过分析减少不合适的变量,达到简化模型的目标。2.2另一种是正则化。正则化则是给添加惩罚项,从而尽可能简化模型。比如,通过添加惩罚项,较小了相应的大小,从而达到目标。惩罚项不针...原创 2018-09-10 21:17:27 · 199 阅读 · 0 评论 -
【吴恩达】机器学习第11章学习收获
1.判断过拟合:将数据集以7:3分为训练集和测试集,如果数据是有序的,最好随机选择以7:3的比例划分。首先训练:通过训练集最小化得到(使用训练集)然后计算误差:(使用测试集)如果很大,则说明存在过拟合。2.模型选择(次数、特征数等)将数据集分为训练集、交叉验证集、测试集。一般按照6:2:2的比例。先用训练集得到,使用交叉验证集来选择模型:最小化J 得到 然后计算,选取最...原创 2018-09-17 20:41:29 · 608 阅读 · 0 评论 -
【吴恩达】机器学习ex3编程练习
1.function [J, grad] = lrCostFunction(theta, X, y, lambda)%LRCOSTFUNCTION Compute cost and gradient for logistic regression with %regularization% J = LRCOSTFUNCTION(theta, X, y, lambda) comput...原创 2018-09-16 23:58:53 · 3674 阅读 · 0 评论 -
【吴恩达】机器学习第7章学习收获 以及ex2部分编程题
1.二分类问题:同样是沿着线性回归进行分析,进行阈值处理,从而变成了逻辑回归,(虽然名字类似,但不是一类问题,分类问题针对的是离散值)1.1假设函数:对于分类问题来说,我们进行变换:(1),g(Z)定义为阈值函数(Sigmoid),如(2)。将(1)(2)结合起来就可以得到新的假设函数1.2关于假设函数的解释:这里的意思是当输入X时,y=1的概率。这里假设函数的范围:0<=h...原创 2018-09-06 17:38:57 · 309 阅读 · 0 评论 -
【吴恩达】机器学习第5章学习收获
1.多变量线性回归:数据集解释不同::第i个训练样本(但这里已经是一个向量了)第i个训练样本的第j的特征变量定义=1X= = 所以 (‘的意思是转置)2.使用梯度下降处理多变量线性回归,在特征很多的时候,效果比较好。但由于变量较多,需要特征缩放(Feature Scaling),,这样可以使得所有变量都在同范围内,收敛得更快。同时,还有均值归一化处理,与特征缩放同样的道...原创 2018-09-03 21:26:14 · 341 阅读 · 0 评论 -
【吴恩达】机器学习编程练习ex5
1.function [J, grad] = linearRegCostFunction(X, y, theta, lambda)%LINEARREGCOSTFUNCTION Compute cost and gradient for regularized linear %regression with multiple variables% [J, grad] = LINEAR...原创 2018-09-19 21:31:39 · 1025 阅读 · 0 评论 -
【吴恩达】机器学习ex2编程作业
function g = sigmoid(z)%SIGMOID Compute sigmoid function% g = SIGMOID(z) computes the sigmoid of z.% You need to return the following variables correctly g = zeros(size(z));% ===============...原创 2018-09-14 21:03:20 · 566 阅读 · 0 评论 -
【吴恩达】机器学习第19章学习收获
1.机器学习中的流水线以照片光学字符识别为例(OCR): 整个过程分为三个模块,可以分别独立的工作。在文本检测和字符分割的过程中,都使用了滑动窗口。在文本检测中通过滑动窗口确定了那些是字符,用矩形框确定了这些区域,用不同的灰度表示这些区域是字符的概率。在字符分割的过程中,通过滑动窗口将字符串分割成一个个单独的字符,是一个单独字符就不管,不是则在中间进行分割。2.如何获得更多...原创 2018-10-05 10:49:46 · 235 阅读 · 0 评论 -
【吴恩达】机器学习第18章大规模机器学习
对于大规模数据的机器学习,有两种处理办法:一是随机梯度下降,二是减少映射(MapReduce)。1.随机梯度下降1.1随机梯度下降针对每个样本,更新一次参数。基本步骤是先随机打乱样本数据,然后再从头开始,一个样本一个样本训练参数。1.2批量梯度下降:是对所有样本进行一次遍历,然后再更新一次参数。每次更新参数,都需要读入所有的数据,开销比较大。1.3Mini-batch梯度下降:选取...原创 2018-10-05 00:29:30 · 278 阅读 · 0 评论 -
【吴恩达】机器学习第17章推荐系统以及ex8推荐系统编程题
1.基于内容的推荐系统以电影推荐为例,先介绍以下参数:r(i,j)表示用户j对于电影i是否进行了评分。1表示已经评分,0表示没有评分。表示用户j对电影i的评分情况。总共1-5分。表示对用户j喜爱电影题材的描述情况.比如(0,5,0)表示每列分别对应玄幻、爱情、动作。这个向量表示用户喜欢爱情,不喜欢玄幻、动作。表示电影i的特征描述。与特征对应,(2,0,0)表示这个电影含玄幻...原创 2018-10-04 21:11:29 · 631 阅读 · 0 评论 -
【吴恩达】机器学习第16章异常检测以及ex8部分编程练习
1.异常检测1.1思路简述首先是一些没有标签的数据进行p(x)建模,就是拟合数据得到一个符合数据规律的p(x),然后根据一个特定的阈值来判断,是否异常。1.2具体步骤(假设p(x)符合高斯)在octave中,我们可以使用hist可视化直方图来看数据是否是高斯分布。如果不是,可以使用log(x)变换得到近似高斯分布的数据。step1:首先是选取特征。选取一些不大不小的重要特征,也...原创 2018-10-04 16:16:16 · 610 阅读 · 0 评论 -
【吴恩达】机器学习第13章SVM学习收获上
从逻辑回归函数引入支持向量机:1)首先是去掉了1/m。1/m是常数,不影响求导以及最后的结果。这里只是做一个适合SVM的处理。2)红色箭头的项用cost代替。这里cost1指的是当y=1时,有效项是第一项,得到了如下图像。cost0同理。3) 与CA+B是同样的效果。都是为了平衡A、B。这里,我们可以认为4)SVM不会输出概率。通过最小化代价函数,可以得到.,然后得到y等于...原创 2018-09-26 22:09:33 · 191 阅读 · 0 评论 -
【吴恩达】机器学习第14章PCA以及ex7PCA编程练习
1.PCA思想:PCA有两个作用,一个是降维,一个是数据可视化。通过降维可以达到数据可视化的目标。将D维降到K维:寻找K个向量,然后将样本点投影到这K个向量中,使得投影误差最小。比如:从2D到1D:找一条直线,将空间中的点垂直投影到这条直线距离上(正交距离),求一条使得这些距离之和最小的直线,从而实现降维。对于从3D到2D,找两个方向的直线,确定一个平面,然后将点投影到这个平面上,计算投影误差...原创 2018-10-03 15:42:02 · 677 阅读 · 0 评论 -
【吴恩达】机器学习第14章k-Means以及ex7-k-means编程练习
1.K-means方法是什么?1.首先K-meas方法是一种无监督的聚类问题。2.方法内容:首先需要确定聚类中心u和聚类数量K:我们可以随机选择中心u;当K<m(m是样本数),我们可以随机选择K个样本作为聚类中心,这个方法一般效果会好一些。聚类数量K我们可以通过最小化K-means的优化目标函数J来实现,得到“肘部规则”的拐点,即可找到合适的聚类数量。但是往往很多时候,通过这种方法并...原创 2018-10-03 10:07:54 · 858 阅读 · 0 评论 -
【吴恩达】机器学习第13章下以及ex6编程作业
1.核函数这里的核函数的定义是高斯核函数。度量的是x与l值之间的欧式距离。对于高斯核函数来说,L一般被称为标记点,一般直接选取样本中的X,比如那么我们如何计算f呢:对于每一个来说,我们选定x,然后使用不同的来计算:比如因此,m是样本个数。note1:核函数不仅是高斯核函数一种,还有很多其他种类。比如多项式核函数等。高斯核函数应用在逻辑回归问题上会使问题的求解变慢...原创 2018-10-01 19:09:41 · 899 阅读 · 0 评论 -
【吴恩达】机器学习第6章学习收获:octave的使用以及第一次编程作业记录
1.octave基本操作:这里有一个记录的很详细的链接:octave基本语法2.编程作业详细记录。2.1关于账号和token。每次的ex编程练习的压缩包里都会有一个submit.m。当提交作业的时候,在octave命令行中输入submit即可。然后按照指示,输入用户名(就是邮箱),以及token(courase上面每次编程作业点进去都会给每个人一个token。2.2关于参数。由...原创 2018-09-05 17:40:15 · 1270 阅读 · 0 评论