![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
笔尾树鼩
I, Robot
展开
-
机器学习中的一些专业词汇的定义(2019/07/14上午学习总结)
特征(属性):例如体重,身高,年龄等,用来描述一个对象的属性的值。分类与回归:分类问题:预测的结果是离散的用于将事物打上一个标签,通常结果为离散值。例如判断一幅图片上的动物是一只猫还是一只狗,分类通常是建立在回归之上,分类的最后一层通常要使用softmax函数进行判断其所属类别。分类并没有逼近的概念,最终正确结果只有一个,错误的就是错误的,不会有相近的概念。最常见的分类方法是逻辑回归,或者...原创 2019-07-14 12:04:20 · 205 阅读 · 0 评论 -
k近邻算法中,对数据进行与处理后对准确率的影响(2019/07/17的问题解答)
昨天对数据进行预处理后发现准确率和最佳k值都未发生变化,肯定是某个环节出了问题,于是对代码进行了修正。修正后的代码,数据在正则化,归一化,标准化后,准确率与最佳k值均发生了变化。bug修复成功。#导入numpy,pandas,knn分类算法和训练集与测试集的切分工具import numpy as npimport pandas as pdfrom sklearn.neighbors imp...原创 2019-07-18 09:12:52 · 2206 阅读 · 0 评论 -
如何选择合适的算法以及开发机器学习应用的步骤(2019/07/15学习总结)
选择算法:算法的选择必须要考虑两个问题:一、使用机器学习算法的目的是什么,想要算法完成何种任务。如果想要预测目标变量的值,则可以选择监督学习算法,否则可以选择无监督学习算法。确定为监督学习算法后,需要进一步的确定目标变量的数据类型,如果是离散型数据可选择分类算法,如果是连续型数据可采用回归算法。大多数情况下上述方法是可行的,但也不是必须的,特殊情况下也可以使用分类算法来解决回归问题。二、需...原创 2019-07-15 22:31:48 · 286 阅读 · 0 评论 -
读取一个目录下众多文件中的数据的方法(2019/7/19学习总结)
手写识别系统在:./digits/trainingDigits/ 目录中包含了约2000个训练数据,目标变量为每个文件的开头的第一个数字(每个文件名为类似"0_0.txt"的形式,每个文件为32*32的二进制图像,每个数字大约有200个左右的样本)在:./digits/testDigits/ 目录中包含了约900个的测试数据,格式同上。先定义一个函数,将文件中的3232转换成11024的...原创 2019-07-19 22:47:22 · 363 阅读 · 0 评论 -
K-近邻算法(2019/07/17学习总结)
K-近邻算法优点:精度高,对异常值不敏感,无数据输入假定(不理解)缺点:计算复杂度高(需要计算新的数据点与样本集中每个数据的“距离”,以判断是否是前k个邻居),空间复杂度高(巨大的矩阵)。使用数据范围:数值型和标称型算法原理:距离公式(欧氏距离)一般流程:1.收集数据,可以使用任何方法2.准备数据,计算距离所需要的数值,最好是结构化的数据格式3.分析数据,可以使用任何方法4.训练...原创 2019-07-18 00:05:23 · 195 阅读 · 0 评论 -
2019/9/3 网格搜索遇到的问题及原因分析
GridSearchCV是用来调参的但是某次发现他调节出来的参数并不是最佳参数。代码如下:import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.datasets import lo...原创 2019-09-03 15:10:39 · 1045 阅读 · 0 评论