自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

痞靥的博客

痞靥的博客

  • 博客(21)
  • 收藏
  • 关注

原创 Coursea-吴恩达-machine learning学习笔记(十七)【week 10之Large Scale Machine Learning】

在机器学习领域,通常不是最好的算法胜出,而是最多的数据胜出。 但较大的训练数据集存在计算量大的问题。是选择使用较大的训练集还是随机抽取一些样本组成小训练集,可以采用画学习曲线的方式决定:如果为高方差的学习算法,使用较大训练集效果较好;如果为高偏差的学习算法,使用两种训练集的效果相差不大,应增加特征量,小训练集可以减小计算量。批量梯度下降VSVSVS随机梯度下降(以线性回归为...

2018-07-08 16:10:35 324

原创 Coursea-吴恩达-machine learning学习笔记(十六)【week 9之Recommender Systems】

推荐系统: 举例(预测电影评分) 用户使用0∼50∼50\sim5星给电影打分,如下图所示: 一些定义如下: nunun_u:表示用户数量; nmnmn_m:表示电影数量; r(i,j)r(i,j)r(i,j):如果用户jjj给电影iii打过分,则r(i,j)=1r(i,j)=1r(i,j)=1; y(i,j)y(i,j)y^{(i,j)}:当用户jjj给电影iii打过分,即r(...

2018-07-05 00:00:48 308

原创 Coursea-吴恩达-machine learning学习笔记(十五)【week 9之Anomaly Detection】

异常检测: 存在样本集{x(1),x(2),⋯,x(m)}{x(1),x(2),⋯,x(m)}\{x^{(1)},x^{(2)},\cdots,x^{(m)}\},通常假设这mmm个样本都是正常的或者不异常的,对训练集数据建一个模型p(x)p(x)p(x),即对xxx的分布概率建模,当建立完概率模型后,对新的样本xtestxtestx_{test}来说,如果p(xtest)<εp(xtes...

2018-07-02 17:32:14 458

原创 Coursea-吴恩达-machine learning学习笔记(十四)【week 8之Dimensionality Reduction】

维数约减又称为降维。 使用维数约减的原因: 1. 数据压缩(减少空间占用,同时为算法提速) 例1:从2D→1D2D→1D2D\to1D 存在如下图所示样本集,x(i)∈R2x(i)∈R2x^{(i)}\in R^2 希望找到如下图中所示直线,把所有样本映射到这条线上 如此,就可以使用下图来表示样本位置,只需要一个特征变量即可: x(1)∈R2→z(1)∈Rx(1)∈R2→...

2018-06-22 17:30:02 309

原创 Coursea-吴恩达-machine learning学习笔记(十三)【week 8之Unsupervised Learning】

监督学习: 训练集:{(x(1),y(1)),(x(2),y(2)),⋯,(x(m),y(m))}{(x(1),y(1)),(x(2),y(2)),⋯,(x(m),y(m))}\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})\} 针对一组有标记的训练数据,提出一个适当的假设,找出决策边界,借此区分正负标记数据。...

2018-06-20 23:28:19 294

原创 Coursea-吴恩达-machine learning学习笔记(十二)【week 7之Support Vector Machines】

逻辑回归的代价函数如下: J(θ)=minθ1m[∑i=1my(i)(−log(hθ(x(i))))+(1−y(i))(−log(1−hθ(x(i))))]+λ2m∑j=1nθ2jJ(θ)=minθ1m[∑i=1my(i)(−log(hθ(x(i))))+(1−y(i))(−log(1−hθ(x(i))))]+λ2m∑j=1nθj2J(\theta)=\min\limits_{\theta}{1...

2018-06-19 17:16:27 309

原创 Coursea-吴恩达-machine learning学习笔记(十一)【week 6之Machine Learning System Design】

建立机器学习系统举例(垃圾邮件分类): 从邮件的训练集中,为每个邮件建立一个向量,每个元素代表一个单词,一般从训练集中找到最常用的100001000010000到500005000050000个单词组成向量,如果在邮件中找到该单词,向量对应位置用111表示,否则用000表示,构建完所有的向量,使用监督学习的逻辑回归模型训练。常用的提高分类精度的方法:收集大量的数据;设计复杂的特征值(...

2018-06-12 23:08:56 317

原创 Coursea-吴恩达-machine learning学习笔记(十)【week 6之Advice for Applying Machine Learning】

假设使用正则化线性回归预测房价:J(θ)=12m[∑i=1m(hθ(x(i))−y(i))2+λ∑j=1nθ2j]J(θ)=12m[∑i=1m(hθ(x(i))−y(i))2+λ∑j=1nθj2]J(\theta)={1\over2m}[\sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^n \theta_j^2] 当把假设函...

2018-06-12 17:32:46 273

原创 Coursea-吴恩达-machine learning学习笔记(九)【week 5之Neural Networks: Learning】

神经网络模型存在训练集: {(x(1),y(1)),(x(2),y(2)),⋯,(x(m),y(m))}{(x(1),y(1)),(x(2),y(2)),⋯,(x(m),y(m))}\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})\} 常用的符号表示:LLL:神经网络的层数;SlSlS_l:第lll层的单元...

2018-06-06 15:20:30 260

原创 Coursea-吴恩达-machine learning学习笔记(八)【week 4之Neural Networks: Representation】

神经网络(非线性分类) 产生的原因:尝试设计模仿大脑的算法。神经元表示一个逻辑运算单元。 单一神经元的神经网络表示如下图: 一般只绘制x1,x2,x3,⋯x1,x2,x3,⋯x_1,x_2,x_3,\cdots 。而x0x0x_0称作偏置单元或偏置神经元,且x0x0x_0总是等于1。在描述神经元时,将之称为一个有SSS型函数或逻辑函数作为激励函数的人工神经元。 在神经网络术语中...

2018-05-31 20:52:19 207

原创 Coursea-吴恩达-machine learning学习笔记(七)【week 3之Regularization】

欠拟合(高偏差):没有很好的拟合训练集数据; 过度拟合(高方差):可以很好的拟合训练集数据,但是函数太过庞大,变量太多,且缺少足够多的数据约束该模型,无法泛化到新的数据样本。解决过度拟合的方法:1.减少特征变量的数量 - 人为选择保留的特征变量 - 利用模型选择算法2.正则化 - 保留所有的特征变量,但要减小数量级或参数θjθj\theta_j的数值 - 当拥有很多特...

2018-05-23 00:03:02 227

原创 Coursea-吴恩达-machine learning学习笔记(六)【week 3之Logistic Regression】

二元分类问题: y∈{0,1}{0:1:Negative ClassPositive Classy∈{0,1}{0:Negative Class1:Positive Class y\in\text{{0,1}}\begin{cases}0: & \text{Negative Class} \\1: & \text{Positive Class}\end{cases} 将线性回归应用...

2018-05-21 23:52:21 225

原创 Coursea-吴恩达-machine learning学习笔记(五)【week 2之Octave/Matlab Tutorial】

在OctaveOctaveOctave中的部分符号表示: 不等于:~=\qquad等于:== 逻辑与:&&\qquad逻辑或:||\qquad异或运算:XOR(A,B)XOR(A,B)XOR(A,B)变量赋值:a=3a=3a=3\qquad如果给一个变量赋值,不希望在屏幕显示结果,可以在命令后面加上分号(如:a=3;)(如:a=3;)(如:a=3;)复杂的屏幕显示可以用...

2018-05-15 00:46:06 229

原创 Coursea-吴恩达-machine learning学习笔记(四)【week 2之Linear Regression with Multiple Variables】

多变量线性回归中的符号表示: m:m:m:表示训练样本的数量 n:n:n:表示特征量的数量 x(i):x(i):x^{(i)}:表示第iii个训练样本的输入特征向量 x(i)j:xj(i):x^{(i)}_j:表示第iii个训练样本的第jjj个特征量多变量线性回归的假设函数: hθ(x)=θ0+θ1x1+θ2x2+⋯+θnxnhθ(x)=θ0+θ1x1+θ2x2+⋯+θnxnh_\t...

2018-05-11 23:46:14 186

原创 Coursea-吴恩达-machine learning学习笔记(三)【week 1之Linear Algebra Review】

[142536][123456] \left[\begin{matrix} 1&2&3\\ 4&5&6\end{matrix}\right] 矩阵的维度:行××\times列; AAA表示矩阵,AijAijA_{ij}表示矩阵第iii行第jjj列的元素。向量是一种特殊矩阵,n×1n×1n\times1的矩阵: y=⎡⎣⎢123⎤⎦⎥y=[123]y=\left[ \b...

2018-04-24 17:36:09 197

原创 Coursea-吴恩达-machine learning学习笔记(二)【week 1之Linear Regression with One Variable】

线性回归算法中特定的符号表示: mmm:表示训练样本的数目; xxx:表示输入的特征; yyy:表示输出变量或目标变量; (x,y)(x,y)(x,y):表示一个训练样本; (x(i),y(i))(x(i),y(i))(x^{(i)},y^{(i)}):表示第iii个训练样本; hhh:表示假设函数,表示从xxx到yyy的函数映射;单变量的线性回归模型:hθ(x)=θ0+θ1xhθ...

2018-04-22 23:31:47 268

原创 Coursea-吴恩达-machine learning学习笔记(一)【week 1之introduction】

最常见的机器学习算法:1.监督学习:已有数据集包含标记(即包含对各个样本的评价),学习目的明确   监督学习包含两种类型:   1.1回归:预测的标记连续,如(0.23,0.56,0.79)   1.2分类:预测的标记离散,如(多云,晴,小雨)2.非监督学习(或无监督学习):已有数据集不包含标记,学习目的不明确   非监督学习即为聚类。机器学习建议使用的编程环境:Octave。...

2018-04-18 16:14:22 549

原创 如何打开内部编码格式不统一的文件?

在进行数据处理过程中,发现数据文件如下图所示:使用内置open()函数无法直接打开,怀疑文件内部编码格式不统一,经过网上查资料,发现python的codecs模块,专门用于自然语言编码转换;codecs模块提供了open()方法。

2017-11-17 19:54:39 891

原创 利用Pandas读取文件路径或文件名称包含中文的csv文件

利用Pandas的read_csv函数导入数据文件时,若文件路径或文件名包含中文,会报错,无法导入

2017-11-16 20:36:53 20809 4

原创 通过Pandas读取大文件

当数据文件过大时,由于计算机内存有限,需要对大文件进行分块读取

2017-11-16 20:31:04 15486 4

原创 Windows cmd窗口的切换目录命令无法切换盘符

Windows的cmd窗口下,利用切换命令cd实现盘符间切换

2016-03-15 22:12:58 36113 12

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除