痞靥-CSDN博客

原创 Coursea-吴恩达-machine learning学习笔记（十七）【week 10之Large Scale Machine Learning】

在机器学习领域，通常不是最好的算法胜出，而是最多的数据胜出。但较大的训练数据集存在计算量大的问题。是选择使用较大的训练集还是随机抽取一些样本组成小训练集，可以采用画学习曲线的方式决定：如果为高方差的学习算法，使用较大训练集效果较好；如果为高偏差的学习算法，使用两种训练集的效果相差不大，应增加特征量，小训练集可以减小计算量。批量梯度下降VSVSVS随机梯度下降(以线性回归为...

2018-07-08 16:10:35 324

原创 Coursea-吴恩达-machine learning学习笔记（十六）【week 9之Recommender Systems】

推荐系统：举例(预测电影评分) 用户使用0∼50∼50\sim5星给电影打分，如下图所示：一些定义如下： nunun_u：表示用户数量； nmnmn_m：表示电影数量； r(i,j)r(i,j)r(i,j)：如果用户jjj给电影iii打过分，则r(i,j)=1r(i,j)=1r(i,j)=1； y(i,j)y(i,j)y^{(i,j)}：当用户jjj给电影iii打过分，即r(...

2018-07-05 00:00:48 308

原创 Coursea-吴恩达-machine learning学习笔记（十五）【week 9之Anomaly Detection】

异常检测：存在样本集{x(1),x(2),⋯,x(m)}{x(1),x(2),⋯,x(m)}\{x^{(1)},x^{(2)},\cdots,x^{(m)}\}，通常假设这mmm个样本都是正常的或者不异常的，对训练集数据建一个模型p(x)p(x)p(x)，即对xxx的分布概率建模，当建立完概率模型后，对新的样本xtestxtestx_{test}来说，如果p(xtest)&amp;amp;lt;εp(xtes...

2018-07-02 17:32:14 458

原创 Coursea-吴恩达-machine learning学习笔记（十四）【week 8之Dimensionality Reduction】

维数约减又称为降维。使用维数约减的原因： 1. 数据压缩(减少空间占用，同时为算法提速) 例1：从2D→1D2D→1D2D\to1D 存在如下图所示样本集，x(i)∈R2x(i)∈R2x^{(i)}\in R^2 希望找到如下图中所示直线，把所有样本映射到这条线上如此，就可以使用下图来表示样本位置，只需要一个特征变量即可： x(1)∈R2→z(1)∈Rx(1)∈R2→...

2018-06-22 17:30:02 309

原创 Coursea-吴恩达-machine learning学习笔记（十三）【week 8之Unsupervised Learning】

监督学习：训练集：{(x(1),y(1)),(x(2),y(2)),⋯,(x(m),y(m))}{(x(1),y(1)),(x(2),y(2)),⋯,(x(m),y(m))}\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})\} 针对一组有标记的训练数据，提出一个适当的假设，找出决策边界，借此区分正负标记数据。...

2018-06-20 23:28:19 294

原创 Coursea-吴恩达-machine learning学习笔记（十二）【week 7之Support Vector Machines】

逻辑回归的代价函数如下： J(θ)=minθ1m[∑i=1my(i)(−log(hθ(x(i))))+(1−y(i))(−log(1−hθ(x(i))))]+λ2m∑j=1nθ2jJ(θ)=minθ1m[∑i=1my(i)(−log(hθ(x(i))))+(1−y(i))(−log(1−hθ(x(i))))]+λ2m∑j=1nθj2J(\theta)=\min\limits_{\theta}{1...

2018-06-19 17:16:27 309

原创 Coursea-吴恩达-machine learning学习笔记（十一）【week 6之Machine Learning System Design】

建立机器学习系统举例(垃圾邮件分类)：从邮件的训练集中，为每个邮件建立一个向量，每个元素代表一个单词，一般从训练集中找到最常用的100001000010000到500005000050000个单词组成向量，如果在邮件中找到该单词，向量对应位置用111表示，否则用000表示，构建完所有的向量，使用监督学习的逻辑回归模型训练。常用的提高分类精度的方法：收集大量的数据；设计复杂的特征值(...

2018-06-12 23:08:56 317

原创 Coursea-吴恩达-machine learning学习笔记（十）【week 6之Advice for Applying Machine Learning】

假设使用正则化线性回归预测房价：J(θ)=12m[∑i=1m(hθ(x(i))−y(i))2+λ∑j=1nθ2j]J(θ)=12m[∑i=1m(hθ(x(i))−y(i))2+λ∑j=1nθj2]J(\theta)={1\over2m}[\sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^n \theta_j^2] 当把假设函...

2018-06-12 17:32:46 273

原创 Coursea-吴恩达-machine learning学习笔记（九）【week 5之Neural Networks: Learning】

神经网络模型存在训练集： {(x(1),y(1)),(x(2),y(2)),⋯,(x(m),y(m))}{(x(1),y(1)),(x(2),y(2)),⋯,(x(m),y(m))}\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})\} 常用的符号表示：LLL：神经网络的层数；SlSlS_l：第lll层的单元...

2018-06-06 15:20:30 260

原创 Coursea-吴恩达-machine learning学习笔记（八）【week 4之Neural Networks: Representation】

神经网络(非线性分类) 产生的原因：尝试设计模仿大脑的算法。神经元表示一个逻辑运算单元。单一神经元的神经网络表示如下图：一般只绘制x1,x2,x3,⋯x1,x2,x3,⋯x_1,x_2,x_3,\cdots 。而x0x0x_0称作偏置单元或偏置神经元，且x0x0x_0总是等于1。在描述神经元时，将之称为一个有SSS型函数或逻辑函数作为激励函数的人工神经元。在神经网络术语中...

2018-05-31 20:52:19 207

原创 Coursea-吴恩达-machine learning学习笔记（七）【week 3之Regularization】

欠拟合(高偏差)：没有很好的拟合训练集数据；过度拟合(高方差)：可以很好的拟合训练集数据，但是函数太过庞大，变量太多，且缺少足够多的数据约束该模型，无法泛化到新的数据样本。解决过度拟合的方法：1.减少特征变量的数量 - 人为选择保留的特征变量 - 利用模型选择算法2.正则化 - 保留所有的特征变量，但要减小数量级或参数θjθj\theta_j的数值 - 当拥有很多特...

2018-05-23 00:03:02 227

原创 Coursea-吴恩达-machine learning学习笔记（六）【week 3之Logistic Regression】

二元分类问题： y∈{0,1}{0:1:Negative ClassPositive Classy∈{0,1}{0:Negative Class1:Positive Class y\in\text{{0,1}}\begin{cases}0: &amp; \text{Negative Class} \\1: &amp; \text{Positive Class}\end{cases} 将线性回归应用...

2018-05-21 23:52:21 225

原创 Coursea-吴恩达-machine learning学习笔记（五）【week 2之Octave/Matlab Tutorial】

在OctaveOctaveOctave中的部分符号表示：不等于：~=\qquad等于：== 逻辑与：&amp;amp;&amp;amp;\qquad逻辑或：||\qquad异或运算：XOR(A,B)XOR(A,B)XOR(A,B)变量赋值：a=3a=3a=3\qquad如果给一个变量赋值，不希望在屏幕显示结果，可以在命令后面加上分号(如：a=3；)(如：a=3；)(如：a=3；)复杂的屏幕显示可以用...

2018-05-15 00:46:06 229

原创 Coursea-吴恩达-machine learning学习笔记（四）【week 2之Linear Regression with Multiple Variables】

多变量线性回归中的符号表示： m：m：m：表示训练样本的数量 n：n：n：表示特征量的数量 x(i)：x(i)：x^{(i)}：表示第iii个训练样本的输入特征向量 x(i)j：xj(i)：x^{(i)}_j：表示第iii个训练样本的第jjj个特征量多变量线性回归的假设函数： hθ(x)=θ0+θ1x1+θ2x2+⋯+θnxnhθ(x)=θ0+θ1x1+θ2x2+⋯+θnxnh_\t...

2018-05-11 23:46:14 186

原创 Coursea-吴恩达-machine learning学习笔记（三）【week 1之Linear Algebra Review】

[142536][123456] \left[\begin{matrix} 1&2&3\\ 4&5&6\end{matrix}\right] 矩阵的维度：行××\times列； AAA表示矩阵，AijAijA_{ij}表示矩阵第iii行第jjj列的元素。向量是一种特殊矩阵，n×1n×1n\times1的矩阵： y=⎡⎣⎢123⎤⎦⎥y=[123]y=\left[ \b...

2018-04-24 17:36:09 197

原创 Coursea-吴恩达-machine learning学习笔记（二）【week 1之Linear Regression with One Variable】

线性回归算法中特定的符号表示： mmm：表示训练样本的数目； xxx：表示输入的特征； yyy：表示输出变量或目标变量； (x,y)(x,y)(x,y)：表示一个训练样本； (x(i),y(i))(x(i),y(i))(x^{(i)},y^{(i)})：表示第iii个训练样本； hhh：表示假设函数，表示从xxx到yyy的函数映射；单变量的线性回归模型：hθ(x)=θ0+θ1xhθ...

2018-04-22 23:31:47 268

原创 Coursea-吴恩达-machine learning学习笔记（一）【week 1之introduction】

最常见的机器学习算法：1.监督学习：已有数据集包含标记(即包含对各个样本的评价)，学习目的明确监督学习包含两种类型： 1.1回归：预测的标记连续，如（0.23，0.56，0.79） 1.2分类：预测的标记离散，如（多云，晴，小雨）2.非监督学习(或无监督学习)：已有数据集不包含标记，学习目的不明确非监督学习即为聚类。机器学习建议使用的编程环境：Octave。...

2018-04-18 16:14:22 549

原创如何打开内部编码格式不统一的文件？

在进行数据处理过程中，发现数据文件如下图所示：使用内置open()函数无法直接打开，怀疑文件内部编码格式不统一，经过网上查资料，发现python的codecs模块，专门用于自然语言编码转换；codecs模块提供了open()方法。

2017-11-17 19:54:39 891

原创利用Pandas读取文件路径或文件名称包含中文的csv文件

利用Pandas的read_csv函数导入数据文件时，若文件路径或文件名包含中文，会报错，无法导入

2017-11-16 20:36:53 20809 4

原创通过Pandas读取大文件

当数据文件过大时，由于计算机内存有限，需要对大文件进行分块读取

2017-11-16 20:31:04 15486 4

原创 Windows cmd窗口的切换目录命令无法切换盘符

Windows的cmd窗口下，利用切换命令cd实现盘符间切换

2016-03-15 22:12:58 36113 12

痞靥的博客