weixin_39714797-CSDN博客

原创 numpy学习

numpy的优势：运算迅速，支持多维数据数组创建及常用函数a = np.array([2,3,4])b = np.array([2.0,3.0,4.0,5.0]).reshape((2,2)) #若reshape中某参数为-1，也即数组规模不变，根据其他参数自动计算c = np.array([[1.0,2.0],[3.0,4.0]])d = np.array([[1,2],[3,4]...

2019-07-17 17:16:46 212

原创 python tips

map函数map()会根据提供的函数对指定序列做映射。第一个参数 function 以参数序列中的每一个元素调用 function 函数，返回包含每次 function 函数返回值的新列表。map() 函数语法：map(function, iterable, ...)function -- 函数 iterable -- 一个或多个序列【例】# 提供了两个列表，对...

2019-07-17 11:40:20 231

转载数据挖掘常用模型

决策树转载于：http://www.cnblogs.com/pinard/p/6050306.html （楼主总结的很好，就拿来主义了，不顾以后还是多像楼主学习）　　　决策树算法在机器学习中算是很经典的一个算法系列了。它既可以作为分类算法，也可以作为回归算法，同时也特别适合集成学习比如随机森林。本文就对决策树算法原理做一个总结，上篇对ID3， C4.5的算法思想做了总结，下篇重点对CART...

2019-07-02 23:02:11 4578

原创 python nlp文本相似度之jieba分词与LDA模型

【转】简明 jieba 中文分词教程https://www.jianshu.com/p/883c2171cdb5python+gensim【中文LDA】简洁模型https://blog.csdn.net/Yellow_python/article/details/83097994用Python进行简单的文本相似度分析https://blog.csdn.net/m0_3787...

2019-04-07 21:43:31 2212

转载 Scikit中的特征选择，XGboost进行回归预测，模型优化

指路博客：https://blog.csdn.net/sinat_35512245/article/details/79668363

2019-03-09 22:35:20 7864

原创 C语言与数据结构——基础部分

输入输出函数scanf 会跳过输入数据中的空格符、制表符、换行符等空格符，从与该字段说明项匹配的数据起始点开始读入数据并进行规定格式的转换。scanf( )函数返回成功赋值的数据项数，读到文件末尾而没有数据时返回EOF。输入多个数据时，用空格或回车换行分隔，但在格式字符串中不用给出空格或回车换行符。输入格式控制串中含有空白字符（如空格、\n或\t。scanf("%d %d\n", &amp...

2019-03-07 19:46:54 467

原创吴恩达机器学习——大规模机器学习

随机梯度下降批量梯度下降中，可以发现每次下降时都要加载所有的数据，当样本数目较多时，计算速度会变得很慢。于是在这里提出一个面向大规模数据的随机梯度下降算法。首先，随机打乱数据集。然后使用新的梯度下降算法。在这里我们可以看到：在每次内部循环中，每个样本只加载一次。对于一般的数据集内部循环将重复1-10次，而对于m极大（如3亿）的数据集，一般重复一次就可以达到比较满意的效果。...

2019-02-19 21:18:16 258

原创吴恩达机器学习笔记——获取大量数据与人工数据

更多训练样本的取得我们可以通过对已有的真实数据集拉伸扭曲、增加噪声的引入失真方式创造更多衍生数据集。也可以利用一些工具创造数据集，如下载各种字体人工随机放置在不同背景中。使用众包平台。大量数据生效的前提而保证工具的可用性，除了提高数据集的数目，还应该预先保证模型本身的低偏差。我们可以通过绘制学习曲线的方式检查分类器以保证我们拥有一个低偏差、高方差的分类器。如果偏差较高，...

2019-02-19 16:09:32 349

原创吴恩达机器学习笔记——照片OCR

照片OCR流水线照片OCR是一种可以识别图片中的文字内容的技术。照片OCR的流水线可以分为三步：文本识别字符分割字符分类识别文本识别给定一组正负样本进行模型训练，从照片中识别出可能是文字的区域，在结果图中，灰度越低，说明判断为文本的概率越大。去除掉一些形状不合理的部分。使得预判为文本的地方扩大、相连。滑动窗口使用一个以一定步长移动的框，对框住的区域使用...

2019-02-19 15:43:20 370

原创吴恩达机器学习笔记——推荐系统

推荐系统运作假设推荐系统实行五星评分制用户已经对一部分电影进行了评分多数电影用户没有看过，推荐系统需要猜测用户对这些电影的评分向用户推荐预测高分的电影一个电影可以从多个特征方面刻画，形成特征集因此，我们的方式是，可以通过用户已经评分的一部分电影去确认用户的口味，也即用户对某一特征的评分预期。进而通过电影的多个特征求得预测评分。用户对特征集的预期评分我们使用向量来表示。特征集每...

2019-02-18 21:10:19 427

原创吴恩达机器学习——异常检测

异常检测算法算法就是通过已有数据集根据所有的特征建立一个概率模型，用于新样本的预测，当新样本的概率小到一定程度时则认为出现异常。算法步骤：选择有用的特征集。对每一个特征结合高斯算法公式得到均值和方差。概率是各个特征概率的乘积。对一个新样本的各个分量值代入对应的概率公式得到值，于预设的阈值作比较得到结果。当小于阈值时则认为出现异常。算法图像：以有两个特征为例，立体图像越高...

2019-02-17 23:09:43 308

原创吴恩达机器学习笔记——降维与PCA算法

PCA算法是一种强大的无监督学习算法。降维与线性回归降维的过程最常用的算法是主成分分析算法（PCA）。降维将数据投影到一个k维度空间上（比如直线或平面）然后最小化投影误差的平方和。PCA算法降维时找到直线方向向量最小化偏差距离时使用的正交距离（称为投影误差）线性而回归问题是用最小代价拟合直线时使用的是竖直距离同时回归中横纵轴的地位是不同的一个是标签一个是...

2019-02-16 21:42:38 501

原创吴恩达机器学习笔记——无监督学习与K-means

K-meas 算法概述随机生成K个点，称为聚类中心。K-means算法实际上是一个迭代算法，他有两步动作。在算法的最开始，随机初始化K个聚类中心，坐标位置分别为。第一步是簇分配，第二步是移动聚类中心。遍历图中的每一个点，判断点跟哪个聚类中心的距离更近，进而划分到这个聚类中心名下，并将聚类中心的下标赋给对应样本点的，这个步骤其实也是代价函数的最小化过程。然后对所有的样本点向量求平均值（忽...

2019-02-15 22:16:17 393

原创吴恩达机器学习笔记——支持向量机

对应吴恩达机器学习网易云课程第13章的内容。在监督学习方面，与神经网络和逻辑回归相比，支持向量机在学习复杂的非线性方程时有很大的优势。SVM优化目标支持向量机的优化目标：支持向量机的优化目标表达式是从逻辑回归改进而来的。在cost函数中，在y=0和y=1时使用两条直线来代替曲线，分别得到的两个表达式我们定为和。进而我们将最小值表达式乘m，使用新的权重表示变量C代替原有的。得到SV...

2019-02-14 21:27:58 366

原创吴恩达机器学习笔记——机器学习系统设计

对应吴恩达机器学习网易云课程第12章的内容。误差分析当我们研究一个机器学习问题时，我们可以先建立一个简单模型，然后画出学习曲线得到优化方案，或者可以采用人工的误差分析，查看被误判的对象，总结出新的特征，制定出新的方案。同时，我们可以在验证集上量化错误率，取舍优化方案。以垃圾邮件的识别为例，我们可以选出垃圾邮件或非垃圾邮件出现频率最高的一些词，然后构建对应的向量，用0/1代表是...

2019-02-14 18:01:06 219

原创吴恩达机器学习笔记——由方差和偏差改进神经网络

对应吴恩达机器学习网易云课程第11章的内容。改进方案的设计对于在新样本测试下拟合结果和实际偏差较大的情况，应该如何改进呢？搜集更多的训练样本，多渠道多种类，但实际上很多情况下是于事无补的。尝试使用更少的特征，防止过拟合。获取更多特征。增加多项式特征，如。修改的值，上下浮动。评估假设通常训练集70%，测试集30%，最好采用随机顺序构造你的数据。线性回归的测...

2019-02-13 20:31:52 363

原创吴恩达机器学习笔记——参数的反向传播算法与神经网络的整体实现

是对应网易云课程吴恩达机器学习第十章的笔记。在这一章，我们想要学习一个给定训练集，确定神经网络参数的算法。首先我们先从确定参数的代价函数说起。代价函数相关参数：L：神经网络的层数：第j层神经网络的神经元数目，不包括偏置。：输出神经元的数目。二分类输出层设置一个神经元即可。K>=3时，我们输出的将是一个K维向量，输出神经元数目也为K。由逻辑回归得到的多层神经网络的代...

2019-02-12 21:50:02 657

原创吴恩达机器学习笔记——非线性假设与神经网络

是对应网易云课程吴恩达机器学习第九章的笔记。线性假设的弊端当涉及的特征变量较多时，线性假设表现出它的弊端。以逻辑回归为例，特征空间迅速膨胀，运算量过大、即使仅考虑2阶式子也过于复杂（仅考虑二次项也是n*(n+1)/2个特征）、同时容易过拟合。因此，我们引入神经网络。神经网络相关术语偏置单元或偏置神经元：输入的向量对应一组输入节点，其中有时被称为偏置单元或偏置神经元，因为它恒等...

2019-02-11 21:47:33 646

原创吴恩达机器学习笔记——正则化

是对应网易云课程吴恩达机器学习第八章的笔记。目前我们已经学习了线性回归和逻辑回归，过度拟合将影响这些算法的发挥。过度拟合两种极端情况：欠拟合：具有高偏差，如在线性回归中执拗的使用一条直线来拟合数据集。过度拟合：扭曲的线，如线性回归中上下波动、逻辑回归中“处心积虑”的找到一个边界分开所有的数据，具有高方差，能拟合所有的数据，参数过多没有足够数据很好的拟合。代价函数为0，无法“泛化”...

2019-02-10 23:08:33 258

原创吴恩达机器学习笔记——分类问题

是对应网易云课程吴恩达机器学习第七章的笔记。分类问题的引入待预测目标为离散，可以是二分类、多分类问题。如，其中0表示没有命中目标（负类），1表示命中目标（正类）。（非严格要求）可以使用：线性回归拟合：设置分类器输出的阀值，如，横坐标对应的纵坐标高于0.5输出1，否则输出0。适用于正负样本在横轴上集中为两组的情况。算法的输出值可能远大于1或远小于0，具有数据集相关的偶然性，不是一个好的...

2019-02-10 13:19:24 349