Python 机器学习
机器学习
沉觞流年
博客内容仅是个人学习笔记,不是技术博客。
展开
-
机器学习 day01(一)
一. 机器学习如果一个程序P,在执行某个任务的时候,能够利用现有的经验,不断的去完善与提高既定任务的性能,那么我们就称这个程序P是具有学习能力的。机器学习的三要素:任务处理,经验数据,性能1. 经验我们习惯上把已知数据看成经验:客观世界中所有的信息都是可以进行数据量化的,也就是可以看做经验数据信息的向量化:我们在描述一个客观事物时候一般会用一个向量来描述,在这个向量中的每一个值就可以代...原创 2019-07-02 12:09:58 · 464 阅读 · 0 评论 -
机器学习 day01(二)
K-近邻算法(KNN)导引如何进行电影分类众所周知,电影可以按照题材分类,然而题材本身是如何定义的?由谁来判定某部电影属于哪个题材?也就是说同一题材的电影具有哪些公共特征?这些都是在进行电影分类时必须要考虑的问题。没有哪个电影人会说自己制作的电影和以前的某部电影类似,但我们确实知道每部电影在风格上的确有可能会和同题材的电影相近。那么动作片具有哪些共有特征,使得动作片之间非常类似,而...原创 2019-07-02 21:26:52 · 776 阅读 · 0 评论 -
机器学习 day01(三)
练习 1 预测年收入是否大于50K美元读取adult.txt文件,最后一列是年收入,并使用KNN算法训练模型,然后使用模型预测一个人的年收入是否大于501. 读取文件,查看相应的信息2. 将特征和标签分离...原创 2019-07-05 00:19:19 · 639 阅读 · 0 评论 -
机器学习 day01(四)
手写体数字识别与ipynb文件夹同级的data文件夹下有10个文件,每个文件中都是手写体数字的图片1. 导入绘图模块,查看图片先读取一张图片,图片为28x28像素2. 读取文件所有的手写体数字图片这是一个三维数组,总共有5000张图片3. 模型训练3.1 sklearn的算法只接受二维以下的数组所以不能直接训练3.2 使用reshape()函数将数组由三维变成二维d...原创 2019-07-06 10:32:55 · 400 阅读 · 0 评论 -
机器学习 day01(五)
knn的回归原创 2019-07-06 15:21:26 · 248 阅读 · 0 评论 -
机器学习 day02(一)
线性回归一. 普通线性回归相关知识点线性方程样本的带入最小二乘法1. 原理分类的目标变量是标称型数据,而回归将会对连续型的数据做出预测。应当怎样从一大堆数据里求出回归方程呢?假定输人数据存放在矩阵X中,而回归系数存放在向量W中。那么对于给定的数据X1, 预测结果将会通过Y=X*W给出。现在的问题是,手里有一些X和对应的Y,怎样才能找到W呢?...原创 2019-07-03 20:27:05 · 163 阅读 · 0 评论 -
机器学习 day02(二)
过拟合与欠拟合拟合,所谓的拟合就是指机器学习的过程中,不断的更新参数,使得模型不断契合我们的训练,并且更好表现训练集数据的性能。比如线性回归就是用一些回归曲线,去表示数据的规律1. 构造一些数据使用numpy构造两个二维数组,表示x值和y值导入绘图工具,分别在x轴,y轴0~25的范围内,使用实心圆的方式显示这些数据2. 使用1次多项式进行模型的训练一次线性回归 y = W*X^T...原创 2019-07-03 21:17:50 · 330 阅读 · 0 评论 -
机器学习 day02(三)
二、岭回归1、原理如果数据的特征比样本点还多应该怎么办?是否还可以使用线性回归和之前的方法来做预测?答案是否定的,即不能再使用前面介绍的方法。这是因为输入数据的矩阵X不是满秩矩阵。非满秩矩阵在求逆时会出现问题。为了解决这个问题,统计学家引入了岭回归(ridge regression)的概念缩减方法可以去掉不重要的参数,因此能更好地理解数据。此外,与简单的线性回归相比,缩减法能取得更好的...原创 2019-07-13 10:51:42 · 352 阅读 · 0 评论 -
机器学习 day02(四)
三、lasso回归1、原理【拉格朗日乘数法】对于参数w增加一个限定条件,能到达和岭回归一样的效果:在lambda足够小的时候,一些系数会因此被迫缩减到0四、普通线性回归、岭回归与lasso回归比较五、练习预测鲍鱼的年龄...原创 2019-07-13 11:38:01 · 651 阅读 · 0 评论 -
机器学习 day03(一)
逻辑斯蒂回归研究的是分类,大多数都是二分类一、二分类问题X = <x1,x2,…,xn> 特征向量W = <w1,w2,…,wn> 回归系数向量b截距y标签如果标签y是连续的,则此时我们研究的问题就是回归问题,如果y和特征向量X成线性规律,则此时研究的问题就是线性回归,y和X的关系表达为:y=W*XT + b二分类问题就是要把上面的这种回归问题转化成二分类。...原创 2019-07-08 19:23:10 · 182 阅读 · 0 评论 -
机器学习 day03(二)
逻辑斯蒂回归原创 2019-07-13 15:00:24 · 180 阅读 · 0 评论 -
机器学习 day03(三)
逻辑斯蒂回归2、实战实战二. 癌细胞数据1. 导入数据导入癌细胞数据集data总共569条数据,每条数据30个特征2. 创建逻辑斯蒂算法模型,训练查看泛化性能3 创建网格搜索模型,调优查看性能查看查正率,查全率,f1值这个性能显然是不达标的恶性肿瘤的查正率为0.96,也就是100个人中,预测正确的只有96个,有4个本来是良性肿瘤,但却被诊断为恶性肿瘤...原创 2019-07-13 15:46:25 · 122 阅读 · 0 评论 -
机器学习 day03(四)
逻辑斯蒂回归二分类问题的性能指标前我们判断分类问题的性能如:准确率、查正率(精确率)、查全率(召回率)、F1值,这些性能指标在二分类中都适用,除了这些以外,二分类还有其他以下性能检测技术。1、混淆矩阵针对于二分类问题,将实例可以分为正例和反例,也称为阳性和阴性。在实际的情况下有4种。1)预测为阳性实际为阳性,我们称为真阳性(也称为真正例),记为:TP (True Postive)2)预...原创 2019-07-13 17:57:19 · 506 阅读 · 0 评论 -
机器学习 day04(一)
朴素贝叶斯原理一些简单的数学原理一、条件概率有两个相互独立的事件A和B,在B事件已经发生基础上A事件发生,我们就称B事件为条件,这个概率记为P(A|B)有两个容器M和N已知:M中有 红球R 7 个 白球W 3个N中有 红球R 9个 白球W 1个如果从M容器中取球取到红球,为事件P(R|M) = 7/10取到白球,概率为P(W|M)=3/10如果从N容器取球取到红球,概...原创 2019-07-08 18:52:43 · 531 阅读 · 0 评论 -
机器学习 day04(二)
自然语言处理自然语言处理是语言学的一个分支,侧重于对人类语言的词法、语法、语句等的研究。在计算机领域,主要用来研究,如何让计算机处理、生成甚至理解人类的语言,并且多种语言的传统学习任务也逐将被机器所代替。一. sklearn 的特征提取1.使用DictVectorizeier对字典的数据特征进行抽取与向量化模块导入from sklearn.feature_extraction im...原创 2019-07-08 21:07:07 · 207 阅读 · 0 评论 -
机器学习 day04(三)
朴素贝叶斯【关键词】朴素:独立性假设贝叶斯公式优点:朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率;对小规模的数据表现很好;能处理多分类任务,适合增量式训练;对缺失数据不太敏感,算法也比较简单,常用于文本分类缺点:只能用于分类问题需要计算先验概率;分类决策存在错误率;对输入数据的表达形式很敏感一、朴素贝叶斯原理朴素贝叶斯算法是一个典型的统计学...原创 2019-07-09 00:25:19 · 209 阅读 · 0 评论 -
机器学习 day05(一)
数学原理一. 决策树1、决策树的定义1)用非叶子节点作为特征2)用叶子节点作为标签3)从根节点开始依次将特征带入,进行决策,直至决策到某个叶子节点为止,决策的结果就是最终的叶子节点值2、如何构造一棵决策树原理:信息论【相关概念】1)信息量香浓对信息量有以下规定:如果参与分类的事物可以划分到多个类别中去,即X该类事物类别信息;则该信息的信息量就是:L(X)=-log2(P(Xi...原创 2019-07-09 15:57:02 · 281 阅读 · 0 评论 -
机器学习 day05(二)
决策树【关键词】树,信息增益决策树的优缺点优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。既能用于分类,也能用于回归缺点:可能会产生过度匹配问题一、决策树的原理predict()【二十个问题的游戏】游戏的规则很简单:参与游戏的一方在脑海里想某个事物,其他参与者向他提问题,只允许提20个问题,问题的答案也只能用对或错回答。问问题的人通过推断分解...原创 2019-07-09 17:46:23 · 130 阅读 · 0 评论 -
机器学习 day05(三)
决策树实战(一)使用自带的iris数据集原创 2019-07-09 19:37:08 · 336 阅读 · 0 评论 -
机器学习 day05(四)
决策树实例分析(二)泰坦尼克号数据分析原创 2019-07-09 21:55:52 · 199 阅读 · 0 评论 -
机器学习 day05(五)
使用决策树回归模型1. 导入数据从数据集中导入波士顿房价数据分割训练集和测试集2. 决策树回归模型创建决策树回归模型原创 2019-07-10 18:44:20 · 351 阅读 · 0 评论 -
机器学习 day06(一)
K均值算法(K-means)聚类【关键词】K个种子,均值一、K-means算法原理聚类的概念:一种无监督的学习,事先不知道类别,自动将相似的对象归到同一个簇中。K-Means算法是一种聚类分析(cluster analysis)的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。K-Means算法主要解决的问题如下图所示。我们可以看到,在图的左边有一些点,我们用...原创 2019-07-12 19:16:04 · 191 阅读 · 0 评论 -
机器学习 day06(二)
一. 聚类的性能评测1. 导入digits数据集,分割训练集和测试集这个数据集是随便导入的,也可以选择其他数据集标签 target 有10个分类2. 导入聚类算法,训练,预测导入聚类算法,将样本集划分为10个聚类此时数据有标签类别,评测的时候可以用聚类划分和真实的类别之间的吻合程度训练预测K-means还提供了预测机制,预测基于前面的训练,把测试集样本依次带入,...原创 2019-07-12 21:03:12 · 992 阅读 · 0 评论 -
机器学习 day06(三)
K-Means图片颜色点分类原创 2019-07-12 21:29:47 · 117 阅读 · 0 评论