- 博客(21)
- 收藏
- 关注
原创 Coursea-吴恩达-machine learning学习笔记(十七)【week 10之Large Scale Machine Learning】
在机器学习领域,通常不是最好的算法胜出,而是最多的数据胜出。 但较大的训练数据集存在计算量大的问题。是选择使用较大的训练集还是随机抽取一些样本组成小训练集,可以采用画学习曲线的方式决定:如果为高方差的学习算法,使用较大训练集效果较好;如果为高偏差的学习算法,使用两种训练集的效果相差不大,应增加特征量,小训练集可以减小计算量。批量梯度下降VSVSVS随机梯度下降(以线性回归为...
2018-07-08 16:10:35 324
原创 Coursea-吴恩达-machine learning学习笔记(十六)【week 9之Recommender Systems】
推荐系统: 举例(预测电影评分) 用户使用0∼50∼50\sim5星给电影打分,如下图所示: 一些定义如下: nunun_u:表示用户数量; nmnmn_m:表示电影数量; r(i,j)r(i,j)r(i,j):如果用户jjj给电影iii打过分,则r(i,j)=1r(i,j)=1r(i,j)=1; y(i,j)y(i,j)y^{(i,j)}:当用户jjj给电影iii打过分,即r(...
2018-07-05 00:00:48 308
原创 Coursea-吴恩达-machine learning学习笔记(十五)【week 9之Anomaly Detection】
异常检测: 存在样本集{x(1),x(2),⋯,x(m)}{x(1),x(2),⋯,x(m)}\{x^{(1)},x^{(2)},\cdots,x^{(m)}\},通常假设这mmm个样本都是正常的或者不异常的,对训练集数据建一个模型p(x)p(x)p(x),即对xxx的分布概率建模,当建立完概率模型后,对新的样本xtestxtestx_{test}来说,如果p(xtest)<εp(xtes...
2018-07-02 17:32:14 458
原创 Coursea-吴恩达-machine learning学习笔记(十四)【week 8之Dimensionality Reduction】
维数约减又称为降维。 使用维数约减的原因: 1. 数据压缩(减少空间占用,同时为算法提速) 例1:从2D→1D2D→1D2D\to1D 存在如下图所示样本集,x(i)∈R2x(i)∈R2x^{(i)}\in R^2 希望找到如下图中所示直线,把所有样本映射到这条线上 如此,就可以使用下图来表示样本位置,只需要一个特征变量即可: x(1)∈R2→z(1)∈Rx(1)∈R2→...
2018-06-22 17:30:02 309
原创 Coursea-吴恩达-machine learning学习笔记(十三)【week 8之Unsupervised Learning】
监督学习: 训练集:{(x(1),y(1)),(x(2),y(2)),⋯,(x(m),y(m))}{(x(1),y(1)),(x(2),y(2)),⋯,(x(m),y(m))}\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})\} 针对一组有标记的训练数据,提出一个适当的假设,找出决策边界,借此区分正负标记数据。...
2018-06-20 23:28:19 294
原创 Coursea-吴恩达-machine learning学习笔记(十二)【week 7之Support Vector Machines】
逻辑回归的代价函数如下: J(θ)=minθ1m[∑i=1my(i)(−log(hθ(x(i))))+(1−y(i))(−log(1−hθ(x(i))))]+λ2m∑j=1nθ2jJ(θ)=minθ1m[∑i=1my(i)(−log(hθ(x(i))))+(1−y(i))(−log(1−hθ(x(i))))]+λ2m∑j=1nθj2J(\theta)=\min\limits_{\theta}{1...
2018-06-19 17:16:27 309
原创 Coursea-吴恩达-machine learning学习笔记(十一)【week 6之Machine Learning System Design】
建立机器学习系统举例(垃圾邮件分类): 从邮件的训练集中,为每个邮件建立一个向量,每个元素代表一个单词,一般从训练集中找到最常用的100001000010000到500005000050000个单词组成向量,如果在邮件中找到该单词,向量对应位置用111表示,否则用000表示,构建完所有的向量,使用监督学习的逻辑回归模型训练。常用的提高分类精度的方法:收集大量的数据;设计复杂的特征值(...
2018-06-12 23:08:56 317
原创 Coursea-吴恩达-machine learning学习笔记(十)【week 6之Advice for Applying Machine Learning】
假设使用正则化线性回归预测房价:J(θ)=12m[∑i=1m(hθ(x(i))−y(i))2+λ∑j=1nθ2j]J(θ)=12m[∑i=1m(hθ(x(i))−y(i))2+λ∑j=1nθj2]J(\theta)={1\over2m}[\sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^n \theta_j^2] 当把假设函...
2018-06-12 17:32:46 273
原创 Coursea-吴恩达-machine learning学习笔记(九)【week 5之Neural Networks: Learning】
神经网络模型存在训练集: {(x(1),y(1)),(x(2),y(2)),⋯,(x(m),y(m))}{(x(1),y(1)),(x(2),y(2)),⋯,(x(m),y(m))}\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})\} 常用的符号表示:LLL:神经网络的层数;SlSlS_l:第lll层的单元...
2018-06-06 15:20:30 260
原创 Coursea-吴恩达-machine learning学习笔记(八)【week 4之Neural Networks: Representation】
神经网络(非线性分类) 产生的原因:尝试设计模仿大脑的算法。神经元表示一个逻辑运算单元。 单一神经元的神经网络表示如下图: 一般只绘制x1,x2,x3,⋯x1,x2,x3,⋯x_1,x_2,x_3,\cdots 。而x0x0x_0称作偏置单元或偏置神经元,且x0x0x_0总是等于1。在描述神经元时,将之称为一个有SSS型函数或逻辑函数作为激励函数的人工神经元。 在神经网络术语中...
2018-05-31 20:52:19 207
原创 Coursea-吴恩达-machine learning学习笔记(七)【week 3之Regularization】
欠拟合(高偏差):没有很好的拟合训练集数据; 过度拟合(高方差):可以很好的拟合训练集数据,但是函数太过庞大,变量太多,且缺少足够多的数据约束该模型,无法泛化到新的数据样本。解决过度拟合的方法:1.减少特征变量的数量 - 人为选择保留的特征变量 - 利用模型选择算法2.正则化 - 保留所有的特征变量,但要减小数量级或参数θjθj\theta_j的数值 - 当拥有很多特...
2018-05-23 00:03:02 227
原创 Coursea-吴恩达-machine learning学习笔记(六)【week 3之Logistic Regression】
二元分类问题: y∈{0,1}{0:1:Negative ClassPositive Classy∈{0,1}{0:Negative Class1:Positive Class y\in\text{{0,1}}\begin{cases}0: & \text{Negative Class} \\1: & \text{Positive Class}\end{cases} 将线性回归应用...
2018-05-21 23:52:21 225
原创 Coursea-吴恩达-machine learning学习笔记(五)【week 2之Octave/Matlab Tutorial】
在OctaveOctaveOctave中的部分符号表示: 不等于:~=\qquad等于:== 逻辑与:&&\qquad逻辑或:||\qquad异或运算:XOR(A,B)XOR(A,B)XOR(A,B)变量赋值:a=3a=3a=3\qquad如果给一个变量赋值,不希望在屏幕显示结果,可以在命令后面加上分号(如:a=3;)(如:a=3;)(如:a=3;)复杂的屏幕显示可以用...
2018-05-15 00:46:06 229
原创 Coursea-吴恩达-machine learning学习笔记(四)【week 2之Linear Regression with Multiple Variables】
多变量线性回归中的符号表示: m:m:m:表示训练样本的数量 n:n:n:表示特征量的数量 x(i):x(i):x^{(i)}:表示第iii个训练样本的输入特征向量 x(i)j:xj(i):x^{(i)}_j:表示第iii个训练样本的第jjj个特征量多变量线性回归的假设函数: hθ(x)=θ0+θ1x1+θ2x2+⋯+θnxnhθ(x)=θ0+θ1x1+θ2x2+⋯+θnxnh_\t...
2018-05-11 23:46:14 186
原创 Coursea-吴恩达-machine learning学习笔记(三)【week 1之Linear Algebra Review】
[142536][123456] \left[\begin{matrix} 1&2&3\\ 4&5&6\end{matrix}\right] 矩阵的维度:行××\times列; AAA表示矩阵,AijAijA_{ij}表示矩阵第iii行第jjj列的元素。向量是一种特殊矩阵,n×1n×1n\times1的矩阵: y=⎡⎣⎢123⎤⎦⎥y=[123]y=\left[ \b...
2018-04-24 17:36:09 197
原创 Coursea-吴恩达-machine learning学习笔记(二)【week 1之Linear Regression with One Variable】
线性回归算法中特定的符号表示: mmm:表示训练样本的数目; xxx:表示输入的特征; yyy:表示输出变量或目标变量; (x,y)(x,y)(x,y):表示一个训练样本; (x(i),y(i))(x(i),y(i))(x^{(i)},y^{(i)}):表示第iii个训练样本; hhh:表示假设函数,表示从xxx到yyy的函数映射;单变量的线性回归模型:hθ(x)=θ0+θ1xhθ...
2018-04-22 23:31:47 268
原创 Coursea-吴恩达-machine learning学习笔记(一)【week 1之introduction】
最常见的机器学习算法:1.监督学习:已有数据集包含标记(即包含对各个样本的评价),学习目的明确 监督学习包含两种类型: 1.1回归:预测的标记连续,如(0.23,0.56,0.79) 1.2分类:预测的标记离散,如(多云,晴,小雨)2.非监督学习(或无监督学习):已有数据集不包含标记,学习目的不明确 非监督学习即为聚类。机器学习建议使用的编程环境:Octave。...
2018-04-18 16:14:22 549
原创 如何打开内部编码格式不统一的文件?
在进行数据处理过程中,发现数据文件如下图所示:使用内置open()函数无法直接打开,怀疑文件内部编码格式不统一,经过网上查资料,发现python的codecs模块,专门用于自然语言编码转换;codecs模块提供了open()方法。
2017-11-17 19:54:39 891
原创 利用Pandas读取文件路径或文件名称包含中文的csv文件
利用Pandas的read_csv函数导入数据文件时,若文件路径或文件名包含中文,会报错,无法导入
2017-11-16 20:36:53 20809 4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人