机器学习(派神)
文章平均质量分 80
qq_38248958
这个作者很懒,什么都没留下…
展开
-
机器学习(1)-数据预处理
在对数据进行分析时,经常会遇到数据缺失或者异常的情况 在这样的数据多的情况下删掉数据终归会对整体造成一定的影响 所以采取对数据进行处理的方法让缺失或者异常的数据有数可用 例如用均值或者最值进行代替 本文便用少量的数据进行分析 下面的数据存在着缺失,数据表示的来自某一些国家的人的年龄,薪资,是否结婚 要知道:在python中缺失的数据默认是NaN首先导入数据文件,设置数据文件的自...原创 2018-04-02 18:50:23 · 2757 阅读 · 0 评论 -
机器学习(10)-NLP自然语言处理大量餐馆评论
1.NLP是什么自然语言处理用于对文本的分类用于对中英文的互相翻译用于打字时候的自动纠错垃圾邮件过滤…1.1本次的目标这次学习是1000个英文的对一餐馆的评价,以及手动分类的结果,看一下是正面还是负面的评价。用NLP算法自动辨别评价的好坏,当在拿到一个评价时,就可以自动进行好坏的分类了。这次要做的就是对评论就行分类,完成以后可以拓展到文本文章英文报道等进行应用。1.2观察数据...原创 2019-01-14 17:20:27 · 1284 阅读 · 0 评论 -
【深度学习】CNN卷积神经网络-识别阿喵阿汪(上)
1.卷积神经网络(Convolutional Neural Networks / CNN)CNN是干什么的,我只会说图像识别的一个框架,流行&强大关于CNN的介绍等,刨他祖坟的一些没用的,看了就忘的原理,不在此赘述,请自行Google。这里只有干货!先来看一张欧美,图片里的人是在向右看还是向前看?是不是当你注视鼻子时,是向右的;注视脸左边的轮廓时,是向左的。大脑在图像识别...原创 2019-01-18 22:07:26 · 867 阅读 · 0 评论 -
机器学习(9)-PCA主成分原理与实现
1.降维简单粗暴的说:降低自变量的个数,可以简化问题,便于分析比方说:在***多元线性回归***中提到的,并不需要所有的自变量,只需要挑选出几个最重要的自变量,再去进行分析同时,这也有利于进行可视化分析2.降维的方法特征选择1.反向淘汰 2.顺向选择 3.双向淘汰 4.信息量比较思想是:原有的自变量不变,只进行提取比如10个自变量,提取出5个进行分析特征提取1.PCA主...原创 2018-10-26 22:20:38 · 580 阅读 · 3 评论 -
机器学习(8)-朴素贝叶斯
1. 条件概率与贝叶斯定理对于事件A和B,当B发生的情况下,A发生的条件概率为: P(A|B)=P(AB) / P(B) 如果把 P(AB) 表示为 P(B|A)P(A),那么:2. 朴素贝叶斯朴素贝叶斯是一个基于贝叶斯定理的分类算法,其基本假设是所有特征是相互独立的。 **3. 根据名字判断性别** 读取训练集和测试集'''训练集:120000预...原创 2018-06-20 21:00:46 · 401 阅读 · 0 评论 -
机器学习(7)-SVM与核函数
1.SVM介绍是一个类似于逻辑回归的方法,用于对不同因素影响的某个结果的分类。 但逻辑回归主要采用的是sigmoid函数,SVM有自己常用的核函数:linear线性核、rbf径向基、poly多项式比方说,要对一堆香蕉和黄瓜进行分类~~~ 首先要明确的是,我们常见的香蕉为黄色,黄瓜为绿色(为什么不叫绿瓜??)。但是香蕉有绿色的,黄瓜也有黄色的??? 好吧。这是我搜的,真的是巨丑!!...原创 2018-05-05 20:17:04 · 1296 阅读 · 5 评论 -
机器学习(6)-逻辑回归
逻辑回归: 一般来讲,其实是用于研究某个事件的概率,输出的结果往往是0或者1 而输入又往往不止一个。 就是用几个不同的因素去预测这个事件到底是发生,还是不发生。 在预测的过程中,用到的是神奇的sigmoid函数还是来看一下购买商品与否的案例:一共有400行数据 第一列是买家的年龄,第二列是买家的薪水,第三列是结果(0代表买过,1代表未买) 我们将数据集分成两部分。300个数...原创 2018-04-22 21:29:01 · 475 阅读 · 0 评论 -
机器学习(2)-数据分类、缩放与模板
在对数据进行预测的时候,有必要对数据进行分类 就是将数据分类成训练集和测试集,这样是为达到更好的预测效果from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = ...原创 2018-04-04 18:51:48 · 378 阅读 · 0 评论 -
机器学习(5)-多项式回归
多项式回归: 处理的是一些非线性问题,像一些无法用直线拟合的离散点,比方说随着工龄的增长和职位的升高而 增加的薪酬。 这样的问题,往往只有一个自变量。 多项式回归还是比较简单的 ///举一个栗子/// 一家企业:十个职位与对应的薪酬 这时候有一个人来你公司应聘,他已经在6职位上工作了两年多,还有几年就可以上到7职位了,你应该给他多少薪酬呢? 这种情况,我们就将他的职位按照6....原创 2018-04-17 13:44:39 · 560 阅读 · 1 评论 -
机器学习(3)-简单线性回归
简单线性回归适用于 一维的简单的数据 比方说在某个数据集中,一列是员工的工作时间(假设以年为度量单位),一列是年薪,好比下图 类似这样的我们可以用简单线性回归来训练,并进行预测 图片中的式子就是简单线性回归的原理,我们需要做的是训练数据找到b0与b1 机器对应的线性回归器,学习就是拟合的过程,学习之后,学到自变量因变量的关系,确定自身的参数,就可以用来预测了。首先导入数据集...原创 2018-04-10 19:01:50 · 383 阅读 · 0 评论 -
机器学习(4)-多元线性回归
一个唯一的因变量和多个自变量 之间的关系 这里自变量在处理之前不仅仅是数值型 上图: 我们要做的也就是,寻找到最佳的b0、b1、…….bn 这里有关于50个公司的数据: spend1、2、3代表了公司在某三个方面的花销,state是公司的的地址,profit则是公司去年的收入。现在要选择目标公司,要求绩效最好,也就是利用前四列的数据预测profit。 但是我们发现,y=b0+b...原创 2018-04-15 11:35:44 · 930 阅读 · 2 评论 -
【深度学习】CNN卷积神经网络-识别阿喵阿汪(下)
上一篇文章:【深度学习】CNN卷积神经网络-识别阿喵阿汪(上)在看这篇文章之前,请先阅读上一篇文章上篇已经大体介绍了CNN的大体原理、结构本篇文章是识别 猫,狗 代码的实战!看一下我们的数据集,全都是图片哈training_set中的cats、dogs都包含4000图片test_set中的两个文件夹各包含1000张图片图片的提取码链接:https://pan.baidu.com/...原创 2019-01-21 21:35:31 · 617 阅读 · 0 评论