![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
MarToony|名角
心若没有栖息的地方,到哪儿都是流浪
展开
-
漫谈tf.data.Dataset以及Pipeline结构
基于TensorFlow 2.3.0。一 TensorFlow中的PipeLine结构理解大家无论学什么编程语言,都会接触到Pipeline的概念与结构,但是也不尽相同,TensorFlow中的PipeLine即是其中的一个。PipeLine的能够允许训练计算机的CPU执行IO和计算一个Batch数据的处理过程(activties),如从磁盘加载和转换特性(loading from disk and transforming features),而在此处理过程中,GPU能够操作前一个Batch的数据(原创 2020-11-24 11:07:57 · 781 阅读 · 0 评论 -
【初级】TensorFlow教程之加载和预处理数据|学习总结
学习记录一 图像①原创 2020-11-24 11:06:56 · 1268 阅读 · 0 评论 -
windowDataSet对象的list(as_numpy_iterator())与Tensor对象的numpy()
Tensorflow2.3中,使用tf.data.DataSet存储与处理数据。对于处理过程中产生的对象,如果想要查看某个对象中包含的具体数据内容。通常会有两种方式:list(as_numpy_iterator())和numpy()那么应该在什么时候该选择哪一个呢?答案是:当对象类型是Tensor对象时,选择numpy(),而tensor对象可以直接使用切片的方式选择出数据。当对象类型是windowDataSet等transform方法处理后的DataSet类型,且其子对象是tensor对象时,原创 2020-11-16 10:47:11 · 1320 阅读 · 0 评论 -
keras_tuner库的总结【源自官网Examples】
keras_tuner库的使用① example1from tensorflow import kerasfrom tensorflow.keras import layersfrom kerastuner.tuners import RandomSearchfrom kerastuner.engine.hypermodel import HyperModelfrom kerastuner.engine.hyperparameters import HyperParameters(x, y)原创 2020-11-13 00:31:00 · 2643 阅读 · 4 评论 -
【初级】keras机器学习基础知识|总结
学习记录电影评论文本分类① tf.keras.layers.Embedding1 embedding的input_dim和output_dim、input_length参数Emdedding方法的参数解释:batch_size不需要多说,所有设计它的计算都从“加速模型参数更新”的角度思考。input_dim:它的值代表一个界限,一个输入矩阵[batch_size, input_length]中的值不能超越的界限。也就是说该输入矩阵中的数字都是处于(0, input_dim)之间的。另外原创 2020-11-12 00:46:23 · 819 阅读 · 2 评论 -
pip 安装 tensorflow_docs 的说明
在学习TensorFlow 教程的 过拟合和欠拟合教程 中,!pip install -q git+https://github.com/tensorflow/docs以上代码适用于Notebook中;而如果是IDEA环境,则应该去掉前缀的感叹号,另外我的命令具体形式是:pip install git+https://github.com/tensorflow/docs.git这里,去掉了 -q 以及 加上了 .git (而后者不确定是否可以不加,未做实验)之后,会弹出以下内容:而后,经过一原创 2020-11-11 13:15:44 · 5426 阅读 · 2 评论 -
利用KNN算法进行手写字体识别-数据集划分-K折交叉验证法代码实现
理论讲解1 情景引入假如百度作为人工智能公司与A公司进行合作,进行图像类别识别(比如通过给定的眼底视网膜图片,判断是否为病理性患者)。A公司需要收集尽可能多的图像,打包后发给百度。百度就得到了训练的数据集,如果百度将数据集全部用于模型构造,而A公司无法段时间内再次提供新的图像数据,那么百度作出的模型就无法验证其性能,也就是分类准确率。无法知晓性能的模型是不会被任何公司接受的。因此,必须想办法在有限的数据集中,既做到训练模型,又能评估模型性能。而在机器学习发展的历史长河中,已经比较优秀的解决了上述问原创 2020-07-15 11:25:44 · 1494 阅读 · 0 评论 -
机器学习的基本术语介绍
如果大家没有学习过机器学习,那么就需要了解一下机器学习的相关术语比如:特征、记录、数据集、样本、属性,特征响亮、空间维数。训练集、验证集和测试集、学习器、模型和算法。举个例子,我们如果去超市买旺旺雪饼,会在货架上看到很多雪饼。我们一般会看袋子上面是否有尘土,再者会尝试掰断一个雪饼,听声音是否清脆,最保险的方式是,看保质期和生产日期,以判断雪饼是否好吃。一般地,经过“袋子是否有尘土”,“雪饼是否清脆”,“是否过期”几个特征,我们就可以相当好的作出判断。而之所以我们能够作出有效的判断,是因为我们已经积原创 2020-07-15 11:23:41 · 450 阅读 · 0 评论 -
KNN手写字体识别任务的优化-二值处理和归一化处理
归一化处理参考文章:图像归一化其实我们经常对图像进行的一种预处理方式是归一化处理,我们这门课是以实战为主,因此部分理论的知识,会点到为止,大量的时间将用于理论与问题的结合上。图像归一化简介图像归一化是计算机视觉、模式识别等领域广泛使用的一种技术。所谓图像归一化, 就是通过一系列变换, 将待处理的原始图像转换成相应的唯一标准形式。2 归一化的作用首先要记住,归一化处理不会改变图像的对比度,其次,归一化最直观的理解就是将所有的像素值从原来的[0,255]区间,转化到[0,1]区间。再者,其作用总原创 2020-07-15 11:19:36 · 1311 阅读 · 0 评论 -
KNN算法的距离公式
理论1 欧式距离欧氏距离(L2范数)是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式.欧式空间是一个非常专业的名词,对于我们编程来说,就等价理解成N维空间即可。特别要指出的是,一般的,我们可以将N维中的一个测试点与多个样本点间的计算从循环N次计算,转化为一次性计算,见下面的例子。import numpy as np vector1 = np.mat([1,2,3])vector2 = np.mat([4,5,6])distance = np.sqrt((vector1-vec转载 2020-07-15 11:18:29 · 8326 阅读 · 0 评论 -
KNN算法的高斯优化
为什么需要加权原始的KNN算法的一个缺点是,如果给定的原始数据集中各类别的样本数目不平衡,容易导致k个邻居投票的时候,各个类别的参与概率不一样,换句话说,k个邻居中,较大样本数的类别其所属的样本占了绝大多数。举个例子:训练样本中汉字“一”有1个,汉字“二”有99个,当我给出一张测试数据,它的类型是“一”,设定k值为5,则无论该测试数组与训练样本的“一”有多么相似,最终k个邻居中,类别“二”的比例,永远最大,且永远为80%。如果是这样,则算法即为失败的算法。而为了避免这一点,可以采用加权的KNN算法,其思原创 2020-07-15 11:16:38 · 4159 阅读 · 5 评论