Machine Learning
-西西弗斯
这个作者很懒,什么都没留下…
展开
-
使用sklearn构造决策树模型
决策树算法难点:如果构造决策树模型%matplotlib inlineimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.datasets.california_housing import fetch_california_housinghousing = fetch_california_housi...原创 2020-02-03 17:57:14 · 608 阅读 · 0 评论 -
决策树与集成算法
举例:判断是否喜欢玩游戏机器学习算法并没有哪个好哪个不好,而是哪个算法更适合于那种数据类型决策顺序:先按照重要的,然后次重要的,依次类推即针对每个特征,都做一次切割分类,特征越多越好吗?根据什么依据去选择根节点?如何切分?希望透过一次分支后,熵值越小越好。pi:取到某一个类别的概率对数函数曲线如下,由于概率值pi属于【0-1】区间,因此对数值恒为...原创 2020-02-03 12:58:27 · 431 阅读 · 0 评论 -
逻辑回归 - 欺诈检测
import pandas as pdimport matplotlib.pyplot as pltimport numpy as npcreditcard = 'C:/Users/Amber/Documents/唐宇迪-机器学习课程资料/机器学习算法配套案例实战/逻辑回归-信用卡欺诈检测/逻辑回归-信用卡欺诈检测/creditcard.csv'data = pd.read_csv(c...原创 2020-02-02 23:11:54 · 932 阅读 · 0 评论 -
梯度下降求解逻辑回归
1Logistic Regression¶1.1The data我们将建立一个逻辑回归模型来预测一个学生是否被大学录取。假设你是一个大学系的管理员,你想根据两次考试的结果来决定每个申请人的录取机会。你有以前的申请人的历史数据,你可以用它作为逻辑回归的训练集。对于每一个培训例子,你有两个考试的申请人的分数和录取决定。为了做到这一点,我们将建立一个分类模型,根据考试成绩估计入学概率。...原创 2020-02-01 14:52:06 · 894 阅读 · 0 评论 -
线性回归算法推导
通常,将机器学习中的监督算法分为回归,与分类两种。回归:透过数据最终能预测出一个值,该值为分类区间的某一个值分类:最终得到的唯一的类别值权重参数对结果影响较大,偏置参数对最终结果影响较小权重参数与theta的组合进行拟合平面,但误差不可避免机器学习的目的:找出一条拟合曲线,误差最优X0 = 1计算:基本上基于矩阵计算y = wx + b假设去...原创 2020-01-31 13:03:43 · 691 阅读 · 0 评论 -
matlab多项式插值interp1深入研究(1)
matlab多项式插值interp1深入研究(1)学习matlab不久,遇到了多项式插值interp1,在网上没有找到研究其插值方法的文章,在此,对其中插值方法做了一些研究,属于matlab范畴之外,但是无聊研究一下总的来说不会有坏处。interp1的具体运用也比较低,个人理解主要属于样本丢失,补充样本用,所以最后还介绍了傅里叶增值法。正文:首先介绍一个多...转载 2019-12-31 20:18:37 · 2067 阅读 · 0 评论 -
Machine Learning Techniques 笔记:2-1 Linear Support Vector Machine
Linear Calssification:通过资料加权,看是正还是负,来对资料进行分类。PLA:把资料做未分类的线不止一条,那条线是最佳的分类?Margin最大?我们学过的理论保障:VC bound看起来每种分类没有差别,Eout 由Ein 与 模型复杂度的代价dvc给bound住。但凭直觉,大家都选择最右面的线,为什么?测试资料,与训练资料可能有差别,比如测量误差。左边的线与右边的线,最大的差...转载 2018-06-10 16:35:56 · 627 阅读 · 0 评论 -
Machine Learning Foundations 笔记:1-16 Three Learning Principles
转载 2018-06-10 16:17:44 · 192 阅读 · 0 评论 -
Machine Learning Foundations 笔记:1-15 Validation
转载 2018-06-10 16:09:10 · 214 阅读 · 0 评论 -
Machine Learning Foundations 笔记:1-14 Regularization
转载 2018-06-10 16:00:02 · 189 阅读 · 0 评论 -
Machine Learning Foundations 笔记:1-13 Hazard of Overfitting
转载 2018-06-10 15:52:11 · 220 阅读 · 0 评论 -
Machine Learning Techniques 笔记:2-14 Radial Basis Function Network
深度学习是类神经网络的延申,如果有很多层时,如何克服一些问题,比如如何选择好的初始值,denoising auto decoder, 做pre-training,与PCA有很大的关系 RBF:SVM+Gaussian Kernel,就会在无限多维中找胖胖的边界,也可以看作是拿一堆Gaussian,把它们做线性组合,中心在svm这些资料点上面。radial:算的函数值只与距离有关,即x与Xn的距离x...转载 2018-06-10 15:40:10 · 344 阅读 · 0 评论 -
Machine Learning Techniques 笔记:2-13 Deep Learning
类神经网络有一层一层的神经元,它们的作用就是帮我们萃取出资料中的模式,把这些模式当作特征。我们又怎么决定神经元的权重呢?我们有backprop这个核心的工具,它可以帮助我们计算梯度,就可以用之前学过的梯度下降法来更新每个神经元的权重,所以整个类神经元的核心就是一层层的神经元,以及它们的连接关系。那么,我们用多少个神经元,多少层?神经元的结构又将如何?类神经网络中决定使用哪种结构是非常核心,但又是非...转载 2018-06-10 07:56:51 · 331 阅读 · 0 评论 -
Machine Learning Techniques 笔记:2-16 Finale
转载 2018-06-24 16:33:15 · 208 阅读 · 0 评论 -
Machine Learning Techniques 笔记:2-2 Dual Support Vector Machine
找出最佳的线,margin最大,通过QP求解非线性特征转换,只需要将原来的x转换为z即可。z空间的线性分类,对应到原来的x空间,可能就是一个非线性的分类动作透过SVM,large margin,来控制模型的复杂度。透过特征转换得到弯曲的边界,做好Ein如果d quota的维度很大时,比如无穷大,则可能无法做好。怎么办?目标:只跟资料数量有关,与特征的维度无关原来的问题:有条件的最佳化问题换成:没有...转载 2018-06-10 16:43:40 · 212 阅读 · 0 评论 -
Machine Learning Techniques 笔记:2-3 Kernel Support Vector Machine
对偶问题:也是QP问题。对偶问题,几乎与空间的维度无关。alpha:原来拉格朗日乘子。 条件数量/变数数量都为N,好像跟维度d quota无关。 d quota跑到Q矩阵中去了,因为Qnm是由zTz计算出来。d quota很大时,就是这个算法的瓶颈所在。 能否把该步骤计算的更快一点呢?先做转换再做内积,则计算量很大。 能不能把这两个步骤合起来,算的快一点呢?多项式转换:原来的多项式拿来,计算出各种...转载 2018-06-10 16:58:30 · 259 阅读 · 0 评论 -
北京大学曹健——Tensorflow笔记 04 神经网络优化
# -*- coding: utf-8 -*-"""Spyder EditorThis is a temporary script file."""# 预测多或预测少的影响一样,即预测多与预测少给的权重相同# 0 导入模块,生成数据集import tensorflow as tfimport numpy as npBATCH_SIZE = 8 # 一次喂...转载 2018-09-28 23:45:29 · 911 阅读 · 0 评论 -
北京大学曹健——Tensorflow笔记 07 卷积神经网络
转载 2018-10-07 20:04:29 · 863 阅读 · 0 评论 -
北京大学曹健——Tensorflow笔记 06 全连接网络实践
转载 2018-10-05 08:30:18 · 679 阅读 · 0 评论 -
北京大学曹健——Tensorflow笔记 05 MNIST数据集输出手写数字识别准确率
# 前向传播:描述了网络结构 minist_forward.py# 反向传播:描述了模型参数的优化方法 mnist_backward.py# 测试输出准确率minist_test.pyimport tensorflow as tf# 首先定义神经网络的相关参数INPUT_NODE = 784 #神经...转载 2018-10-02 23:23:31 · 891 阅读 · 1 评论 -
北京大学曹健——Tensorflow笔记 03 搭建神经网络
透过vim ~/.vimrc 写入 set ts=4, set nu,保存退出来设定vim编辑器。自动换行,4个空格计算图:只搭建神经网络,不运行运算,不计算结果。 上图中:x 为 1行,2列的张量w为2行,1列的张量(中括号[3.0]与[4.0]之间的逗号代表换行)y为1行1列的张量 ...转载 2018-09-14 07:22:33 · 913 阅读 · 0 评论 -
北京大学曹健——Tensorflow笔记 02 Python语法串讲
转载 2018-09-14 07:02:32 · 765 阅读 · 0 评论 -
北京大学曹健——Tensorflow笔记 01
转载 2018-09-14 06:46:26 · 1732 阅读 · 0 评论 -
Machine Learning Techniques 笔记:2-4 Soft-Margin Support Vector Machine
有效率:像linear的方向走。想要弯弯曲曲的复杂边界:网Gaussian kernel方向走。转载 2018-06-10 17:05:15 · 269 阅读 · 0 评论 -
Machine Learning Techniques 笔记:2-15 Matrix Factorization
Radia; Basis Function:它就是一堆相似性的线性组合,这些相似性是基于距离,k-menas第n个user,给第m个电影的评分Rnm我们只有电影的编号,以及它的历史评分,如何从中学习到feature?不同的feature,用0/1来表示。把原来的feature,转换为还有0/1的vector第n个用户,给第m部电影,没有评分的位置,留白。评分的部分:分支用含有0/1值的vector...转载 2018-06-24 07:26:20 · 278 阅读 · 0 评论 -
Machine Learning Foundations 笔记:1-12 Nonlinear Transformation
转载 2018-06-08 07:02:57 · 200 阅读 · 0 评论 -
Machine Learning Foundations 笔记:1-5 Traing versus Testing
转载 2018-06-02 22:29:33 · 194 阅读 · 0 评论 -
Machine Learning Foundations 笔记:1-2 Learning to answer Yes/No
转载 2018-05-26 07:57:49 · 278 阅读 · 0 评论 -
Machine Learning Foundations 笔记:1-1 The Learning Problem
转载 2018-05-26 07:38:20 · 262 阅读 · 0 评论 -
Machine Learning Techniques 笔记:2-6 Support Vector Regression
Kernel LR:如果将SVM用到soft binary classification,可以用2-level learning的方式,先做一个SVM,然后将SVM的结果放在LR中微调一下,或者是使用representer theorm直接把LR变成kernel的形式。今天,着眼点在于如何将LR变成kernel的形式上周的Representer Theorm:最好的w什么时候变成一堆z的线性组合呢...转载 2018-05-21 23:29:47 · 223 阅读 · 0 评论 -
Machine Learning Techniques 笔记:2-5 Kernel Logistics Regression
上节2-4中有讲,如果SVM中允许犯一点点错误,把原来很严格的hard-margin改成soft-margin,允许违反一些些边界,用C代表惩罚,与原来形式类似,唯一的差别,就是alpha n的上界为C。LIBLINEAR,LIMSVM(专门求解dual SVM)由台大林志远老师实验室开发SVM error measure, usually called hinge error measure.e...转载 2018-05-21 22:42:26 · 243 阅读 · 0 评论 -
Machine Learning Techniques 笔记:2-8 Ada Boosting
只要比乱猜效果好,最终Ein总可收敛t=1,放大errort=2,进一步切割,放大中间的errort=3经过足够的迭代,可以得出一条完美的分界线转载 2018-05-25 06:52:24 · 269 阅读 · 0 评论 -
线性回归原理小结
线性回归原理小结 线性回归可以说是机器学习中最基本的问题类型了,这里就对线性回归的原理和算法做一个小结。1. 线性回归的模型函数和损失函数 线性回归遇到的问题一般是这样的。我们有m个样本,每个样本对应于n维特征和一个结果输出,如下: (x(0)1,x(0)2,...x(0)n,y0),(x(1)1,x(1)2,...x(1)n,y1),...(x(m)1,x(m)2,...x(m...转载 2018-05-03 09:27:56 · 295 阅读 · 0 评论 -
精确率与召回率,RoC曲线与PR曲线
精确率与召回率,RoC曲线与PR曲线 在机器学习的算法评估中,尤其是分类算法评估中,我们经常听到精确率(precision)与召回率(recall),RoC曲线与PR曲线这些概念,那这些概念到底有什么用处呢? 首先,我们需要搞清楚几个拗口的概念:1. TP, FP, TN, FN True Positives,TP:预测为正样本,实际也为正样本的特征数 False Positive...转载 2018-05-03 09:22:29 · 372 阅读 · 0 评论 -
交叉验证(Cross Validation)原理小结
交叉验证(Cross Validation)原理小结 交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证,顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓“交叉”。 那么什么时候才需要交...转载 2018-05-03 09:20:50 · 460 阅读 · 0 评论 -
最小二乘法小结
最小二乘法小结 最小二乘法是用来做函数拟合或者求函数极值的方法。在机器学习,尤其是回归模型中,经常可以看到最小二乘法的身影,这里就对我对最小二乘法的认知做一个小结。1.最小二乘法的原理与要解决的问题 最小二乘法是由勒让德在19世纪发现的,原理的一般形式很简单,当然发现的过程是非常艰难的。形式如下式: 目标函数 = Σ(观测值-理论值)2 观测值就是我们的多组样本,理论...转载 2018-05-03 09:09:47 · 753 阅读 · 0 评论 -
Machine Learning Foundations 笔记:1-6 Theory of Generation
转载 2018-06-02 22:45:27 · 202 阅读 · 0 评论 -
Machine Learning Techniques 笔记:2-10 Random Forest
Decision Tree: 想办法找到递归的方法,将data切分开。不同情况,使用不同的gBagging:通过bootstrap的方式得到不一样的资料,把这些不一样的资料送到某一base algrithm里面,然后得到不同的g,最后由不同的g进行投票。bagging的特点:演算法稳定性很大,通过投票会降低varianceDecision Tree:拿到不同的data后,想办法建一颗不同的树,根分...转载 2018-06-03 08:10:49 · 292 阅读 · 0 评论 -
Machine Learning Foundations 笔记:1-7 VC Dimensions
转载 2018-06-03 09:06:32 · 174 阅读 · 0 评论 -
Machine Learning Foundations 笔记:1-11 Linear Models for Classification
转载 2018-06-08 06:52:39 · 225 阅读 · 0 评论