nudt_oys-CSDN博客

原创 [深度之眼机器学习训练营第四期]大规模机器学习

这一节主要讲了一些适用于大规模机器学习的算法及策略，并比较了梯度下降、随机梯度下降和小批量梯度下降的优劣。目前来说，大规模机器学习中用的最多的还是小批量梯度下降，毕竟它在执行效率和性能之间达到了一个平衡。当然，对于小批量梯度下降来说，如何选择合适的批量大小又是一个值得深思的问题。梯度下降Repeat{Θt+1:=Θt−α1n∑i=1n∇cost(f(x(i);Θt),y(i))}\begin{...

2020-03-15 10:46:11 381

原创 [深度之眼机器学习训练营第四期]异常检测

密度估计如果随机变量XXX的概率分布函数满足f(x)=12πσexp⁡((x−μ)22σ2)f(x) = \frac{1}{\sqrt{2\pi}\sigma}\exp\left(\frac{(x-\mu)^2}{2\sigma^2}\right)f(x)=2πσ1exp(2σ2(x−μ)2)其中μ\muμ是均值，σ2\sigma^2σ2是方差，我们就称XXX服从高斯分布，记作X∼N(...

2020-03-06 14:38:39 344

原创 [深度之眼机器学习训练营第四期]K-means聚类

K-means聚类算法聚类是一种无监督学习方法。在无监督学习中，训练集只包含{x(1),x(2),⋯ ,x(n);x(i)∈Rd}\{x^{(1)},x^{(2)},\cdots,x^{(n)};x^{(i)}\in \mathbb{R^d}\}{x(1),x(2),⋯,x(n);x(i)∈Rd}，每个训练样本没有对应的标签y(i)y^{(i)}y(i)。k-meansk\text{-mean...

2020-03-01 17:22:46 389

原创 [深度之眼机器学习训练营第四期]机器学习系统设计

工作流程这节课以垃圾邮件分类为例，介绍了机器学习系统的整个设计和实现流程。给定电子邮件数据集，我们可以为每个邮件构造一个向量。每个向量包含10000到50000个元素，每个元素代表一个单词，这些元素都是数据集中出现频率最高的单词。如果在电子邮件中找到一个单词，则将箱梁中相应的元素设为1，否则设为0。一旦我们准备好所有的向量，就可以进行模型训练，然后使用它来判断电子邮件是否为垃圾邮件。为了提高分...

2020-02-11 19:13:47 370

原创 [深度之眼机器学习训练营第四期]关于机器学习应用的一些建议

机器学习算法评估模型评估在整个机器学习任务的流程中，我们需要在数据集上训练机器学习模型，找到一个比较“好”的假设。但是，有些假设在已知数据集上表现很好，在新数据上的性能却很差，错误率比较高，这也就是我们常说的“过拟合”。那么，我们如何解决这种类型的问题呢？一般来说，评价机器学习模型的性能，主要看模型在未知数据上的表现。因此，当我们拿到一个数据集以后，不能马上进行模型的训练，而是需要把数据集分...

2020-02-10 20:19:35 405

原创 [深度之眼机器学习训练营第四期]神经网络之参数学习

损失函数LLL表示神经网络模型的层数sls_{l}sl表示每一层神经元的数量KKK输出层神经元的数量J(Θ)=−1n∑i=1n∑k=1K[yk(i)log⁡((hΘ(x(i)))k)+(1−yk(i))log⁡(1−(hΘ(x(i)))k)]+λ2n∑l=1L−1∑i=1sl∑j=1sl+1(Θj,i(l))2\begin{gathered} J(\Theta) = - \frac...

2020-02-06 22:02:48 219

原创 [深度之眼机器学习训练营第四期]神经网络之模型表示

为什么要用神经网络？为了获得非线性假设空间，我们引入神经网络模型。之前文章提到，对于分类问题，对数几率回归结合多项式特征可以得到非线性决策边界；而将多项式特则与线性回归结合也可以拟合非线性函数。既然我们已经可以得到非线性建设空间，为什么还要引入神经网络模型呢？为了回答这个问题，假设我们的训练集有ddd个特征，一次项O(d)O(d)O(d)，二次项O(d2)O(d^2)O(d2)，d次项O(dd)...

2020-01-28 16:23:34 286

原创 [深度之眼机器学习训练营第四期]过拟合与正则化

基本概念机器学习模型面临的两个主要问题是欠拟合与过拟合。欠拟合，即模型具有较高的偏差，说明模型没有从数据中学到什么，如下左图所示。而过拟合，即模型具有较高的方差，意味着模型的经验误差低而泛化误差高，对新数据的泛化能力差，如下右图所示。通常，欠拟合是由于模型过于简单或使用数据集的特征较少导致的。相反，过拟合则是模型过于复杂或特征过多引起的。欠拟合的问题比较容易解决，而过拟合的问题则有些棘手。一...

2020-01-17 22:29:35 261

原创 [深度之眼机器学习训练营第四期]对数几率回归

J(θ)=1m∑i=1mCost(hθ(x(i)),y(i))Cost(hθ(x),y)={−log⁡(hθ(x)) if y = 1−log⁡(1−hθ(x)) if y = 0J(\theta) = \dfrac{1}{m} \sum_{i=1}^m \mathrm{Cost}(h_\theta(x^{(i)}),y^{(i)}...

2020-01-17 19:55:11 271

原创 [深度之眼机器学习训练营第四期]线性回归

基本概念首先看一下基本的概念与符号。x(i)x^{(i)}x(i)表示输入变量，也就是特征，y(i)y^{(i)}y(i)表示输出变量，也被称为标签或目标。二者组成的元组(x(i),y(i))(x^{(i)},y^{(i)})(x(i),y(i))就表示一个训练样本，而nnn个这样的训练样本就组成了训练集，即{(x(i),y(i));i=1,⋯ ,n}\{(x^{(i)} , y^{(i)} )...

2020-01-10 12:17:10 227

原创 AdaBoost算法原理及实现

AdaBoost算法输入：训练数据集T={(x1,y1),(x2,y2),…,(xN,yN)}T={(x1,y1),(x2,y2),…,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\}，其中xi∈X⊆Rnxi∈X⊆Rnx_i\in \mathcal{X} \subseteq \mathbb{R}^n，yi∈{−1,+1}yi∈{−1,+1}y_...

2018-07-14 17:57:42 1584

原创 K-Means算法及Python实现

聚类是一种无监督学习，它将相似的对象划分到同一个簇中。通过这样的划分，每个簇可能对应一些潜在的类别。例如，西瓜可以被划分为“深色瓜”、“浅色瓜”、“有籽瓜”和“无籽瓜”等，这些概念对于聚类算法而言事先是未知的。基于不同的学习策略，人们设计出很多类型的聚类算法，下面我们主要介绍K-Means聚类算法并使用Python实现它。相似度计算前面提到，聚类算法视图将相似的对象归为同一簇，不相似的...

2018-06-17 16:54:33 740

原创 Logistic Regression原理及Python实现

1. 问题引入相信大家都接触过分类问题，尤其是二元分类。例如现在有一些患者（训练集）的身体情况以及是否患有心脏病的数据，要求我们根据这些数据来预测其他患者（测试集）是否患有心脏病。这是比较简单的一个二元分类问题，使用线性分类器或许会取得不错的效果。但在实际生活中，我们感兴趣的往往不是其他患者是否会犯病，而是他犯心脏病的概率是多少。很直观的想法是收集患者犯病的概率，然后利用回归模型进行概率预测。但是我

2018-01-03 21:12:05 1172

原创《机器学习基石》课程笔记（4）

Learning is Impossible?考虑如下二元分类的例子：给出5条数据，设计一个算法找出一个g∈Hg \in H并且所有的g(xn)=yng(\mathbf{x}_n) = y_n，并且说明gg和理想的那个ff是否近似。既然输入xn\mathbf{x}_n有3个维度，那么输入一共只有8种情况，而输出有2种情况，一共有28=2562^8 = 256种输入输出组合。我们可以找到一些h∈H

2017-12-20 11:11:11 543

原创 Kaggle入门之泰坦尼克号生还率预测

这是Kaggle上的一道入门题目，旨在让我们了解机器学习的大致过程。题目链接：Titanic: Machine Learning from Disaster题目大意：当年泰坦尼克号的沉没造成了很多人的死亡，救生艇不足是造成如此多人死亡的主要原因。尽管能否活下来要看运气，但是有些群体的存活概率比其他人更高。现在给出一些乘客的信息，包括他最后是否生还。根据这些信息，我们要对其他乘客是否生还进行预测。

2017-12-17 16:33:20 3739

原创 NumPy基础：数组和矢量计算

NumPy（Numerical Python的简称）是高性能科学计算和数据分析的基础包。它的部分功能如下： - ndarray，一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组 - 用于对整组数据进行快速运算的标准数学函数（无需编写循环） - 用于读写磁盘数据的工具以及用于操作内存映射文件的工具 - 线性代数、随机数生成以及傅里叶变换功能 - 用于集成由C、C++、F

2017-12-11 17:56:13 778

原创 CCF CSP 2014年12月第2题 Z字型扫描（模拟水题）

问题描述试题编号：201412-2试题名称：Z字形扫描时间限制：2.0s内存限制：256.0MB问题描述：问题描述　　在图像编码的算法中，需要将一个给定的方形矩阵进行Z字形扫描(Zigzag Scan)。给定一个n×n的矩阵，Z字形扫描的过程如下图所示：　　对

2017-12-02 10:51:17 851

原创 CCF CSP 2016年12月第2题工资计算（模拟 || 打表）

问题描述试题编号：201612-2试题名称：工资计算时间限制：1.0s内存限制：256.0MB问题描述：问题描述　　小明的公司每个月给小明发工资，而小明拿到的工资为交完个人所得税之后的工资。假设他一个月的税前工资（扣除五险一金后、未扣税前的工资）为S元，则他应交的个人

2017-11-14 20:56:19 638

原创 CCF CSP 2015年12月第3题画图（模拟+DFS或BFS）

问题描述试题编号：201512-3试题名称：画图时间限制：1.0s内存限制：256.0MB问题描述：问题描述　　用 ASCII 字符来画图是一件有趣的事情，并形成了一门被称为 ASCII Art 的艺术。例如，下图是用 ASCII 字符画出来的 CSPRO 字样。

2017-11-11 18:44:13 885

原创 CCF CSP 2016年04月第4题游戏（BFS）

问题描述试题编号：201604-4试题名称：游戏时间限制：1.0s内存限制：256.0MB问题描述：问题描述　　小明在玩一个电脑游戏，游戏在一个n×m的方格图上进行，小明控制的角色开始的时候站在第一行第一列，目标是前往第n行第m列。　　方格图上有一些方格是始终安全

2017-11-08 22:09:24 762

原创 LeetCode 399 Evaluate Division（BFS）

Equations are given in the format A / B = k, where A and B are variables represented as strings, and k is a real number (floating point number). Given some queries, return the answers. If the answ

2017-11-07 17:43:31 743

原创《机器学习基石》课程笔记（2）

Perceptron Hypothesis Set 对于银行是否发送信用卡的问题，把每位顾客的年龄、年收入等特征看成一个向量x=(x1,x2,...xd)\mathbf{x} = (x_1,x_2,...x_d)，计算顾客每个特征与权重的乘积之和，如果结果大于某个阈值（threshold），那么就发送信用卡，否则不发送信用卡。根据以上的信息，我们就可以得到一个线性形式的hh，它属于假设集合

2017-11-05 20:30:20 473

原创《机器学习基石》课程笔记（3）

Learning with Different Output Space YY输出空间实际应用二元分类Y={−1,+1}Y = \{ -1, +1 \}信用卡分发或不分发、识别垃圾邮件和非垃圾邮件、病人有病或没病、广告是否盈利、答案是否正确多元分类Y={1,2,3,...,K}Y = \{ 1, 2, 3,..., K\}手写字体分类、图片识别、垃圾邮件更详细的分类回归Y=RY =

2017-11-04 15:50:41 519

原创 CCF CSP 2016年9月第3题炉石传说（模拟）

问题描述试题编号：201609-3试题名称：炉石传说时间限制：1.0s内存限制：256.0MB问题描述：问题描述　　《炉石传说：魔兽英雄传》（Hearthstone: Heroes of Warcraft，简称炉石传说）是暴雪娱乐开发的一款集换式卡牌游戏（如下图所示）

2017-11-01 20:27:19 1290

原创 LeetCode 146 LRU Cache（list+unordered_map实现LRU缓存算法）

Design and implement a data structure for Least Recently Used (LRU) cache. It should support the following operations: get and put.get(key) - Get the value (will always be positive) of the key i

2017-10-28 12:17:53 1019

原创 CCF CSP 2017年3月第2题学生排队（STL运用）

问题描述试题编号：201703-2试题名称：学生排队时间限制：1.0s内存限制：256.0MB问题描述：问题描述　　体育老师小明要将自己班上的学生按顺序排队。他首先让学生按学号从小到大的顺序排成一排，学号小的排在前面，然后进行多次调整。一次调整小明可能让一位同学出队，

2017-10-26 22:52:21 613

原创 C++STL中vector（可变大小数组）用法总结

标准库类型vector表示某种类型对象的集合，集合中每个对象都有一个与之对应的索引，用以访问对象。要想使用vector，必须包含头文件vector，并且需要声明using std::vector。/*--------------------创建和初始化vector对象--------------------*//*创建一个包含T类型元素的空vector*/vector<T> v1;/*用v1来创

2017-10-25 21:37:43 5712

原创独立任务最优调度（双机调度）问题

用两台处理机AA和BB处理nn个作业。设AA和BB处理第kk个作业的时间分别为aka_k和bkb_k。由于各个作业的特点和机器性能的关系，对某些作业，在AA上的处理时间长；而对另一些作业，在BB上的处理时间更长。一台处理机在某个时刻只能处理一个作业，而且作业处理是不可中断的，每个作业只能被处理一次。现在要找出一个最优调度方案，使得nn个作业被这两台处理机处理完毕的时间和最少。本题是一个独立任

2017-10-20 20:07:06 22987 21

原创 CCF CSP 2014年9月第4题最优配餐（多源多汇BFS）

问题描述试题编号：201409-4试题名称：最优配餐时间限制：1.0s内存限制：256.0MB问题描述：问题描述　　栋栋最近开了一家餐饮连锁店，提供外卖服务。随着连锁店越来越多，怎么合理的给客户送餐成为了一个急需解决的问题。　　栋栋的连锁店所在的区域可以看成是一个

2017-10-13 12:15:44 594

原创 CCF CSP 2016年9月第4题交通规划（Dijkstra算法）

问题描述试题编号：201609-4试题名称：交通规划时间限制：1.0s内存限制：256.0MB问题描述：问题描述　　G国国王来中国参观后，被中国的高速铁路深深的震撼，决定为自己的国家也建设一个高速铁路系统。　　建设高速铁路投入非常大，为了节约建设成本，G国国王决定

2017-10-12 19:48:42 1183

原创 CCF CSP 2016年12月第4题压缩编码（区间DP）

问题描述试题编号：201612-4试题名称：压缩编码时间限制：3.0s内存限制：256.0MB问题描述：问题描述　　给定一段文字，已知单词a1, a2, …, an出现的频率分别t1, t2, …, tn。可以用01串给这些单词编码，即将每个单词与一个01串对

2017-10-10 16:59:44 1199

原创 CCF CSP 2015年9月第4题高速公路（求连通分量）

问题描述试题编号：201509-4试题名称：高速公路时间限制：1.0s内存限制：256.0MB问题描述：问题描述　　某国有n个城市，为了使得城市间的交通更便利，该国国王打算在城市之间修一些高速公路，由于经费限制，国王打算第一阶段先在部分城市之间修一些单向的高速公路。

2017-10-07 19:39:32 778

原创 CCF CSP 2015年03月第4题网络延迟（求树的直径）

问题描述试题编号：201503-4试题名称：网络延时时间限制：1.0s内存限制：256.0MB问题描述：问题描述　　给定一个公司的网络，由n台交换机和m台终端电脑组成，交换机与交换机、交换机与电脑之间使用网络连接。交换机按层级设置，编号为1的交换机为根交换机，层级为1

2017-10-07 10:44:45 801

原创 CCF CSP 2014年12月第4题最优灌溉（并查集+Kruskal算法）

问题描述试题编号：201412-4试题名称：最优灌溉时间限制：1.0s内存限制：256.0MB问题描述：问题描述　　雷雷承包了很多片麦田，为了灌溉这些麦田，雷雷在第一个麦田挖了一口很深的水井，所有的麦田都从这口井来引水灌溉。　　为了灌溉，雷雷需要建立一些水渠，以连

2017-10-02 21:55:49 1600

原创 CCF CSP 2014年9月第3题字符串匹配（strstr函数的应用）

问题描述试题编号：201409-3试题名称：字符串匹配时间限制：1.0s内存限制：256.0MB问题描述：问题描述　　给出一个字符串和多行文字，在这些文字中找到字符串出现的那些行。你的程序还需支持大小写敏感选项：当选项打开时，表示同一个字母的大写和小写看作不同的字符；

2017-10-02 19:39:53 1039

原创 CCF CSP 2017年3月第4题地铁修建（Kruskal算法）

问题描述试题编号：201703-4试题名称：地铁修建时间限制：1.0s内存限制：256.0MB问题描述：问题描述　　A市有n个交通枢纽，其中1号和n号非常重要，为了加强运输能力，A市决定在1号到n号枢纽间修建一条地铁。　　地铁由很多段隧道组成，每段隧道连接两个交通

2017-09-30 22:12:42 1758

原创《机器学习基石》课程笔记（1）

什么是机器学习什么是学习？学习是人类通过观察世界积累经验进而获得相应技能的过程。而机器学习则是机器（计算机）通过计算数据，像人类一样积累经验并获得技能的过程。机器学习更一般化的定义是Improving some performance measuer with experience computed from data.也就是机器通过计算的手段，利用积累的经验改善系统的性能。比如，让机器

2017-09-16 12:26:57 823

原创浅析对象关系映射

对象关系映射（Object Relational Mapping，简称ORM）是通过使用描述对象和数据库之间映射的元数据，来实现面向对象语言程序中的对象与关系数据库中的关系的映射。根据对象与关系数据库的特性，ORM一般在以下几个方面实现。1.类的属性映射为数据表的字段将类中的属性映射成数据表的字段是一种很自然的想法，但是类的属性和数据表的字段并不是一一对应的。一个属性可以对应0或多个

2017-09-10 21:22:20 1291

原创 LeetCode 414 Third Maximum Number（set + priority_queue）

Given a non-empty array of integers, return the third maximum number in this array. If it does not exist, return the maximum number. The time complexity must be in O(n).Example 1:Input: [3, 2,

2017-08-29 16:58:32 592

原创 kNN分类算法

kNN(k-Nearest Neighbor，简称kNN)算法是一种常用的分类于回归方法。它的工作机制非常简单：给定测试样本，基于某种距离度量找出训练集中与其最相近的k个训练样本，然后基于这k个“邻居”的信息来进行预测。通常采用“多数表决”的决策规则对输入的测试样本进行分类，即选择k个最近样本中出现次数最多的类别标记作为预测结果，类似于我们常说的“近朱者赤，近墨者黑”；在回归任务中可以使用“平均法”

2017-08-24 21:26:22 5443

空空如也

空空如也