![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据、机器、深度等
如厮__
少说不可能。
展开
-
简单介绍:过采样中的SMOTE算法
前言仅概况介绍正文算法思想:对于每个少数类样本A,从它的最近邻中随机选一个样本B,在A、B之间的连线上随机选一点C作为一个新的样本。具体过程:1、对于少数类中每一个样本A,以欧氏距离为标准计算它到少数类样本集中所有样本的距离,将这些样本记作为“邻居”。2、根据数据集中的不平衡比例设置一个采样比例,来确定采样倍率N,对于每一个少数类样本A,在其“邻居”中随机选择若干个邻居,假设选...原创 2020-03-01 21:40:28 · 2003 阅读 · 0 评论 -
简单介绍:tensorflow的分布式
介绍RPC框架(远程过程调用):它是一种对底层通信协议的二次封装,通过网络从远程计算机程序上请求的服务框架。可参考:RPC框架tensorflow中的是谷歌的gRPC框架数据分析设备类型:一机多卡(普通):一台服务器,多个显卡。多机多卡(分布式):多台服务器,多个显卡。tensorflow实现分布式的结构:参数服务器们(tensorflow对于其的命名规范:/job:...原创 2020-02-18 22:36:41 · 247 阅读 · 0 评论 -
深度学习:验证码识别
需求:验证码识别方案:数据集和样本本身很小,使用全连接层神经网络预测code:github数据集图片数据集链接:https://pan.baidu.com/s/1ENAtDuyTriCa94CKBONHXg 提取码:77as(由于该链接中的数据不是压缩包的形式,非会员下载极其麻烦,所以不推荐这种方法)自己使用验证码生成代码生成(推荐)直接使用tfecords文件(推荐)文件...原创 2020-02-16 21:41:19 · 511 阅读 · 0 评论 -
神经网络:卷积神经网络神经
介绍卷积神经网络常用于图片识别,尤其是在大型图像处理上尤为出色。卷积神经网络和全连接神经网络的区别(参考图片,后者为卷积):相关专业名词:零填充(Zero-padding):有时,在输入矩阵的边缘使用零值进行填充,这样我们就可以对输入图像矩阵的边缘进行滤波。零填充的一大好处是可以让我们控制特征图的大小。使用零填充的也叫做泛卷积,不适用零填充的叫做严格卷积 。卷积:看到一个很复杂的信...原创 2020-02-13 18:42:23 · 550 阅读 · 0 评论 -
神经网络:全连接神经网络(单层结构)
介绍首先,要先了解一下逻辑回归。在逻辑回归中,其实是通过sigmoid函数将线性回归输出值转换成0~1之间的概率值,从而通过阈值(常为0.5)比较实现二分类问题求解。而在神经网络解决多分类问题时,便是通过softmax函数,将每个样本的输出值转换为一个概率值,比较概率值的大小,实现多分类问题的求解。softmax函数:公式:公式介绍:我们假设存在一组数据:样本为三个特征的三分类问...原创 2020-02-10 17:37:40 · 2326 阅读 · 0 评论 -
易懂:聚类算法之Kmeans
介绍首先要知道为什么要聚类?简来说:就是没有目标值,自己创造目标值复杂说:通常聚类是做在分类之前的,当数据集没有目标值的时候,就只能通过聚类的方式,将一定量的样本化为一类,另外一部分样本再化为一类,然后这些样本所属于的类别就作为其样本的目标值,之后便在做常规的分类预测。聚类算法之Kmeans的步骤(过程):ps:先假设此时有1000个样本(点),要将其划分为3个类别(k=3)...原创 2020-01-15 23:42:36 · 1604 阅读 · 0 评论 -
易懂:逻辑回归
介绍首先要了解线性回归(你一定要看):线性回归与岭回归。逻辑回归(分类算法):以线性回归的式子作为公式基础,接受特征值并输入后,通过sigmoid函数可将目标值值转化为0~1之间的某一个值,即为逻辑回归的公式。所以你可以理解逻辑回归公式为:ho(x) = sigmoid(f(x)),(f(x) = w’x 是线性回归公式),通俗来说:逻辑回归比线性回归多了一个sigmoid函数。sigmo...原创 2020-01-15 19:11:44 · 1167 阅读 · 0 评论 -
易懂:线性回归
前言尽量表述通俗易懂线性回归的定义和原理线性回归的定义:线性回归通过一个或者多个自变量(特征)与因变量(目标值)之间之间进行建模的回归分析。其特点为一个或多个称为回归系数的模型参数的线性组合。通俗理解:特征值和目标值间具有某个函数关系。问题1:什么样的数据会使用线性关系模型?回答1: 当特征值和目标值在一个二维的时候大概是一个直线的关系(特征值只有一列的时候);在三维或者多维空间...原创 2020-01-11 00:17:43 · 645 阅读 · 0 评论 -
关于过拟合和欠拟合
铺垫首先考虑一下,机器学习模型的本质是什么?它的本质其实就是一个函数,其作用是实现从一个样本 x 到样本的目标值 y 的映射,即 f(x)=y。那么这个函数,是不是在空间中可以通过绘图绘制出来?我们不去真正的画某一个模型的几何图形,我们只假设某一个算法模型在不断的通过样本锻炼的过程中,在几何里形成了下图的三个阶段。假设每个点是样本的目标值,那么?哪个图?或者说哪个阶段锻炼出来的算法模型能...原创 2020-01-10 23:10:37 · 423 阅读 · 0 评论 -
易懂:决策树与随机森林
相关知识铺垫信息熵的定义:在物理界中,熵是描述事物无序性的参数,熵越大则越混乱;而信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;一个系统越是混乱,信息熵就越高,所以,信息熵也可以说是系统有序化程度的一个度量。信息熵的公式:也可以理解为:H(x) = -(p1logp1 + p2logp2 + … + p32logp32)信息熵公式案例:在32个比赛用马中选择...原创 2020-01-06 20:55:33 · 268 阅读 · 0 评论 -
关于网格搜索和交叉验证
定义理解交叉验证:意义:为了让被评估的模型更加的准确可信(交叉验证平均值最大的才是最可信的),作用:确定估计器最好的超参数是哪个。实际操作:把训练集分为几个等份,其中包括一份验证集(类似测试集)和多份训练集。而且你还要知道:这份验证集是不固定的,你分为多少份,验证集就有多少种可能;这份验证集的训练集是剩下的多份训练集之和,而不是谋一份训练集网格搜索:指定模型估计器的超参数,程序自...原创 2020-01-03 23:51:54 · 1028 阅读 · 0 评论 -
机器学习:有关分类模型的准确率、召回率、精确率介绍
提要模拟一个机器学习案例:我们假设要做一个预测是否为癌症的案例,特征值是:身体的各项素质,目标值是:是否为癌症。那么此时如何衡量这个模型的好坏?由此引出衡量机器学习的几个标准:准确率、召回率、精确率、其实还有稳健型F1。下面结合假设的预测案例,来介绍这几个标准。正文先了解几个定义:类别定义案例真正例(TP )实际上是正例的数据点被标记为正例实际上为癌...原创 2020-01-03 23:23:52 · 591 阅读 · 0 评论 -
简单理解TF-IDF算法
前言在对文本信息处理得过程中,我们会使用分词工具对文本字符串进行分词处理,然后进行频率统计,就会明白文本字符串中关键词的重要性占比。但是,问题来了,难道,诸如:“所以”、“也许”、“或者”… 这样的词能说明其很重要?答案当然是否!所以,TF-IDF算法就来解决了这一问题。原理Tf,也就是term frequency,它代表了词的频率(“词频”);可以这样计算 :词频 = 某词在文...原创 2019-12-21 19:24:03 · 412 阅读 · 0 评论 -
易懂:朴素贝叶斯算法
前言尽量描述通俗易懂有公式详解和使用案例算法实现和公式推导有链接还有小彩蛋 -。-相关信息定义(我反正不太懂):朴素贝叶斯法(Naive Bayes)是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入 x ,利用贝叶斯定理求出后验概率最大的输出 y 。定义通俗理解:如果数据集的...原创 2019-12-29 22:30:54 · 510 阅读 · 0 评论 -
易懂:k-近邻算法
前言尽量表述易懂。重在算法本身,案例的的特征处理和数据清洗没有做多少。相关信息定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。通俗理解:距离最近的k个值中,占大多数的目标值就是被预测数据的目标值(k值就是“邻居值”的个数)。来源:KNN算法最早是由Cover和Hart提出的一种分类算法。公式(欧氏距离):可...原创 2019-12-28 22:50:34 · 311 阅读 · 0 评论 -
总结:matplotlib中三种输出中文方式
摘要我个人比较喜欢前两种,因为设置是全局的。-。-code1import matplotlibfont = {'family' : 'MicroSoft YaHei', 'weight': 'bold', 'size': '12', } matplotlib.rc("font",**font)code2imp...原创 2019-10-25 22:31:18 · 1718 阅读 · 0 评论 -
关于numpy和pandas中关于nan的几个总结
摘要仅个人总结,不保证绝对正确,仅服务个人。本意是纪录文章最后的黑体字部分。正文在计算平均值等类似操作的时候numpy中的nan会参与计算,而pandas的nan不会。np中的nan是float类型,所以在进行相关操作的时候需要将别的数据类型(int->float)进行转换,但是pandas中你不用考虑这个问题。对比下面两片将nan替换为均值的代码就可以知道两者在处理na...原创 2019-11-16 16:28:03 · 1301 阅读 · 0 评论