detuo9079-CSDN博客

转载 2017年度总结

迟来的年终总结，微博里自己督促过自己很多次现在才写出来。。1、学习学习方面主要是关于考研与研一上学期的生活，之间的过渡期没有找公司实习，转而跑出去和朋友耍了几个地方是现在比较大的遗憾，2月份在家中查询成绩后怀着喜悦，没过完假期坐车回到了学校图书馆，借书、占座、三点一线的开始复试准备，惴惴不安身怀忐忑在小河边背复试考点与面试准备，3月份转战南京体检、笔试、面试，怀着喜悦之情最后...

2018-02-27 21:48:00 145

转载关于PTA平台上使用python2/3书写代码误判问题

前几天想学一下数据结构知识，在PTA的题库中规规矩矩做了几道，在自己的shell下全部运行通过了，但上传三次都未能成功通过，网上搜了一圈没有关于这方面的帖子，整理一下：如第一道题目：给定K个整数组成的序列{ $N_1, N_2, ..., N_K$ }，“连续子列”被定义为{ $N_i, N_i+1, ..., N_j$ }，其中 1≤i≤j≤K。“最大子列和”则被定义为所有...

2017-10-19 15:04:00 307

转载 Git与GitHub的简单了解（3）

5. 推送至远程仓库在GitHub上首先创建同为git-tutorial的仓库，基本步骤为：打开注册好的GitHub网页，点击右上角工具栏的New repository图标，如下：对新建仓库命名，但此时不需要勾选Initialize this repository with a README 选项。git remote add ---- 添加远程仓库在 G...

2017-08-19 15:20:00 172

转载 Git与GitHub的简单了解（2）

3. 分支的操作 master 分支是 Git 默认创建的分支，因此基本上所有开发都是以这个分支为中心进行的，从 master 分支创建 feature-A 分支和 fix-B 分支后，每个分支中都拥有自己的最新代码。不同分支中，可以同时进行完全不同的作业。等该分支的作业完成之后再与 master 分支合并，利用分支可以使并行开发更加高效。git branch --...

2017-08-18 17:44:00 174

转载 Git与GitHub的简单了解（1）

目录 Git与GitHub 1. 前言 2. Git的基本操作本文参考书籍GitHub入门与实践整理所得，另外可以查阅Git Community Book中文版本以及外文版本资料链接Git与GitHub1. 前言GitHub：为开发者提供Git仓...

2017-08-18 17:41:00 136

转载学习SFrame，根据GraphLab库

参考课程：机器学习基础：案例研究--华盛顿大学开发环境搭建，GraphLab Create安装参考：教程1，教程2，以及GraphLab教育版注册链接TIps（注册邮箱中）黑体部分功能函数具体参考网页：GraphLab Create API DOC1.0import graphlab ：启动GraphLabsf = graphlab.SFrame('people-example...

2017-08-09 22:24:00 200

转载结课：应用实例--照片字符识别 (photo OCR)

目录结课：应用实例--照片字符识别 (photo OCR) 1. 问题描述与流水线pipeline 2. 滑动窗 (sliding windows) 3. 获取更多的数据：人工数据合成（artificial data synthesis） 4. 上限分析(ceiling...

2017-08-03 17:45:00 232

转载大数据下的机器学习

目录大数据下的机器学习 1. 随机梯度下降(stochastic gradient descent) 2.小批量梯度下降（Mini-batch gradient descent） 3.在线学习（online learning） 4.映射约减(map-reduce) ...

2017-08-01 23:25:00 262

转载 EX8：异常检测与推荐系统的练习

目录 EX8 异常检测与推荐系统的练习 1.异常检测-Anomaly detection 2.推荐系统 EX8 异常检测与推荐系统的练习在本练习中，首先将异常检测算法应用于检测网络中的故障服务器。在第二部分中，将使用协作过滤来构建电影推荐系统。1...

2017-07-30 23:16:00 281

转载推荐系统（Recommender systems）

目录推荐系统（Recommender systems） 1.预测电影评分 2.协同过滤(collaborative filtering) 3.协同过滤算法的向量化实现推荐系统（Recommender systems）这里讨论推荐系...

2017-07-29 23:15:00 393

转载异常检测-Anomaly detection

目录异常检测-Anomaly detection 1.1问题动机 1.2高斯分布-Gaussian distribution 1.3算法实现 2.1创建与评估异常检测系统 2.2异常检测vs.监督学习 2.3特征-features的选择...

2017-07-21 13:32:00 460

转载 EX7：K-均值聚类和PCA

目录 EX7：K-均值聚类和PCA 1、K-均值聚类 2.PCA-中心成分分析法 EX7：K-均值聚类和PCA 前言：本练习中，我们将利用K-均值算法压缩一张图片，第二部分中，将使用PCA为面部图片找寻低维描述。1、K-均值聚类在第一个练习中，...

2017-07-19 23:10:00 274

转载维数约减--Dimensionality Reduction

目录维数约减--Dimensionality Reduction 维数约减--Dimensionality Reduction 维数约减属于无监督学习范畴，我们希望使用维数约减的原因可能有：通过数据压缩以减少数据占有内存的大小，为算法运算提高速度，将数据可视化等。数据压缩-data compres...

2017-07-17 16:00:00 618

转载无监督学习-- 聚类（Clustering）

无监督学习（unsupervised learning）介绍聚类（Clustering）回顾之前的有监督学习，根据给出的数据集（已经做出标记labels）${(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(m)},y^{(m)})}$，学习出假设函数，对数据集进行决策分界。相反无监督学习中并未给出具体的标记\(y^{(m)...

2017-07-13 15:22:00 738

转载 Ex6 支持向量机SVM

Ex6 支持向量机SVM 在本练习的上半部分，将使用支持向量机（SVM）与各种示例2维数据集。实验这些数据集将有助于直观了解SVM工作的过程，以及如何使用高斯内核与SVM。在下一个练习中，将使用支持向量机来构建垃圾邮件分类器。如下图所示的2维数据集，可以通过线性边界分离，图中正样本通过“+”描述，负样本通过“o”描述，之间有很大的间隙（gap），但需注意在点（0.1，4.1...

2017-07-11 22:19:00 444

转载支持向量机SVM

SVM-核函数（Kernels）非线性决策边界对于下图中的数据集分类，我们一般会想到构造多项式特征变量：我们也可以写为：$\theta_0+\theta_1f_1+\theta_2f_2+...$，$f_1=x_1,f_2=x_2,...$，通过之前的知识可以看到加入这些多项式提供了更多的特征向量，然而有没有比这些高阶项更好的特征向量（因为这些高阶项的计算量是非...

2017-07-10 22:28:00 105

转载初识支持向量机

支持向量机（Support Vector Machine）支持向量机（SVM）为监督式机器学习方法的一种，广泛地应用于统计分类、回归分析、二类问题（binary classification）的模式识别中，其最大特点是既能够最小化经验损失（也叫做经验风险、或者经验误差），同时又能够最大化几何间距（分类器的置信度），因此SVM又被称为最大边缘区（间距）的分类器。机的意思就是算法...

2017-07-09 12:38:00 127

转载机器学习模型建立的几点建议

构建一个垃圾邮件分类器对于垃圾邮件，我们可以人为的挑选若干个关键词作为识别垃圾邮件判断的特征，而在实际应用中，我们应该遍历整个训练集，在训练集中找出出现次数最多的n个单词，n介于10,000和50,000之间，将这些单词作为所选用的特征。根据所找到的特征集合，我们可以为每一个邮件构建一个向量，如果在电子邮件中找到一个字，我们将分配其相应的项1，否则这一项将为0，即向量的每一项表示一...

2017-07-06 23:25:00 155

转载 EX5 Bias v.s.Variance

EX5 偏差v.s.方差在正则线性回归下的体现在练习的前半段，你将利用正则化线性回归模型根据水库中水位变化来预测流出大坝的水量，之后的下半段练习中，将通过调试所学的算法的诊断效果，检查是偏差还是方差的影响。数据的可视化首先对大坝保存的历史记录中德数据进行可视化，包括水位的变化x以及从坝流出的水量y，数据集主要分为以下三类：训练集：从中学习--建立模型 X，y交叉验证集...

2017-07-05 23:37:00 148

转载给自己设计的模型做个诊断（偏差Vs.方差）

白白的敲了两个晚上，没保存，重来。。对于机器学习ML实际应用中的几点建议调试学习算法中决定下一步的选择假设你利用正则化后的线性回归来预测房价但利用训练出来的函数应用在新的房屋集中时，会发现对于预测出现了很大的误差，接下来可以选择：获取更多的训练样本尝试减少训练集中的特征数尝试增加更多的特征数增加多项式的次数（$x_1^2,x_2^2,x_1x_2,etc$）...

2017-07-03 23:48:00 93

转载神经网络练习四-ex4

回了趟家，一路上来回的重复播放李健的几首歌，现在充电完成，准备工作！Ex4:神经网络学习在这一练习中，我们将把神经网络中的后向传播算法应用到手写识别中，在上一个练习中，通过实现神经网络的前馈传播，并用它来预测和写入数字与我们提供的权重（weights）。在本练习中，我们将实现反向传播算法来学习神经网络的参数。数据的图形化这是与上一个练习中使用的数据集相同的数据集。 ex...

2017-06-28 21:24:00 521

转载神经网络中的前向后向传播算法

神经网络中的代价函数与后向传播算法代价（损失）函数依照惯例，我们仍然首先定义一些我们需要的变量：L:网络中的总层数，$s_l$:在第l层所有单元（units）的数目（不包含偏置单元），k:输出单元（类）的数目回想一下，在神经网络中，我们可能有很多输出节点。我们将$h_\Theta(x)_k$表示为导致第k个输出的假设。我们的神经网络的成本函数将是我们用于逻辑...

2017-06-19 19:12:00 288

转载 ex3多类问题和NN中的前向传播

昨日去了趟无锡，前天下了暴雨，所以昨天给我的感觉天气很好，天蓝云白的，以后在这边学习估计也是一件很爽的事情，且昨日通知书业寄到学校了，附赠了一份研究生数学建模的传单，我搜了搜近几年的题目，感觉统计模块的题目很多，学了一段时间的机器学习现在感觉看懂还是有点小难，但是有几道可以直接看出思路。昨天回来后并未继续笔记的整理，转去翻了翻周志华的书，重新看后感觉很棒，这段时间再重新看一遍，下了本...

2017-06-12 16:21:00 147

转载逻辑关系下的NN应用

自己好奇搜了几篇别人对Ng视频的的笔记，读下去可观性很强，后回到自己的笔记却觉得矛盾很多，有些地方搞得很模糊，自己没有仔细去想导致写完读起来很怪，此篇之后我决定放慢记笔记的速度，力求尽多地搞清楚模糊点。首先之前一直出现的regression analysis(即：回归分析) 究竟是怎么回事？为什么要用回归分析做分类器。“回归分析是研究一个变量关于另一个（些）变量的具体依赖关系的...

2017-06-10 17:04:00 125

转载 NN-Neural Network

开始学习神经网络（Neural Network）已有线性与逻辑回归，为什么需要用到NN实际的应用中，需要根据很多特征进行训练分类器，当今有两个特征下，可以通过下图表述：然而还有太多的特征需要考虑，假设这里有100个特征，包含他们所有的相关项后可能会有5000个，这种计算量很显然是非常大的，当然你可以仅保存$x_1^2、x_2^2....X_{100}^2$，此时仅100个...

2017-06-10 12:29:00 117

转载 ex2:逻辑回归及正则条件下的练习

EX2 逻辑回归练习假设你是一个大学某系的管理员，你想根据两项考试结果来确定每个申请人的录取机会。你有以前申请人的历史资料以作为逻辑回归的训练集。对于每一个训练集，你拥有每个申请人的两项考试的分数与最终录取与否的信息。绘出数据散点图figure; hold on;%Find indices of postive and negative examplespos = fi...

2017-06-09 19:35:00 320

转载 Overfitting&Underfitting Problems

这次根据结合Google的翻译果然速度快上许多，暂时休息，晚上在传一个exm2的随笔。关于过度拟合下的问题考虑从x∈R预测y的问题，下面的最左边的图显示了将$y=\theta_0+\theta_1x$拟合到数集的结果，我们看到数据不是真的在直线上，所以适合度不是很好。相反，如果我们添加了一个额外的特征$x^2$，并且拟合\(y=\theta_0+\theta_1x+\th...

2017-06-09 15:58:00 148

转载分类问题

自己翻译了一些，对照了下google的翻译结果，发现有好多还不如机器翻译的...果然AI大法好 :)开始新的章节--分类为了尝试分类，直觉想到了使用线性回归，即将大于0.5的所有预测映射为1，全部小于0.5的映射为0.然而由于分类问题并不是简单的线性函数，因此该分类实际上并不能很好进行。其实分类问题与回归问题很相似，除了我们预测的y取值仅是一些较少的离散值。现在，我们将重点介绍二进制...

2017-06-09 11:58:00 406

转载第二章完结，包含exam练习

正则方程（Normal Equation）梯度下降是最小化代价函数$J(\theta)$的一种方式，这里提出了另一种方式即正则方式不使用迭代方式：$\theta = (X^TX)^{-1}X^Ty$。举例如下（m=4）在正则方式中不需要对正则方程做尺度缩放。下表给出了对于正则方程与梯度下降方法中差异：梯度下降正则方程需要选择学习速率alpha不需...

2017-06-08 18:10:00 90

转载梯度下降02

多重特征多个特征下的线性回归问题又称为：多元线性回归。这里有几个专用名词需要解释一下：$x_{j}^{i}$表示第i个训练样本中的第j歌特征值$x^i$表示第i个训练样本的所有特征，一般是以列向量来表示。m表示的是训练集的个数多元形式下的假设函数可以设为：\(h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+...+\thet...

2017-06-07 18:44:00 82

转载继续，第一章中的代价函数与梯度下降算法介绍

与几个同专业的朋友吃完饭，坐在电脑前又敲了会字，传上来模型建立（术语介绍）为方便将来讨论机器学习的方便，我们这里定义：$x^{(i)}$为输入变量，也成为输入的特征变量，以后将更多的应用术语Features（特征）来描述。$y^{(i)}$表示第i个输出或试图预测的目标变量。$(x^{(i)},y^{(i)})$为一对训练集，这里的i=1……m。为了更清晰与正式的描述有...

2017-06-06 21:22:00 144

转载开始学习机器学习，从Ng的视频开始

时隔快5个月，忙完了考研和毕设后终于有时间搞自己想搞得，研究生导师方向是图像处理与机器学习结合，重新开工何为机器学习？对于机器学习（Machine Learning）的定义大体上有两种，第一种是美国人Arthur Samuel提出的，Arthur本人亦是人工智能（AI）的先驱。其定义如下：机器学习是通过给予电脑在为做特定编写程序的前提下具备学习得能力。这种定义是较为古老、非正式的定义...

2017-06-06 10:06:00 164

转载补：关于man关于SEE ALSO（参见）中代号与vim下常用命令

1.查阅/etc/issue文件时，使用man issue发现manual中see also出现motd(5), agetty(8), mingetty(8)字样。以及文档行首的issue(5)究竟是什么意思。 man man后解释为：　　 1 Executable programs or shell commands-->shell下可执行程序或命令 2...

2017-01-23 12:41:00 487

转载开工--行胜于言

0.0 开此Blog主要目的在于开始学习linux内核，入手书籍《鸟哥的Linux私房菜》第三版，目前看到250页有余，立此Blog督促自己更正拖延症，及学会如何思考。0.1 此篇随笔摘录之前所学的一部分知识，抠脚英语表达，此后的随笔加以更正，但同样附以扎脚英文。1.[deer4ever_lix@localhost ~]$ ：中的～符号表示/home/deer4ever...

2017-01-17 20:11:00 120