【机器学习记录随笔-入门篇】

【机器学习记录随笔-入门篇】



前言

上一篇我们初步讲解了机器学习是什么、如何预测及图片、文字等内容如何转成数字供电脑使用。
今天继续接下来的内容。
(本人第一次写博客,因为工作时间等缘故,可能有一些段落拆分的不合理、讲解的不够细致。后续时间充裕了会再逐步整理。感谢各位谅解。)

四、如何训练权重及预测


在理解这一篇要有一些数学知识前提,所以如果感觉理解有困难的可以先了解一下如下知识点:
1、方差,2、交叉熵函数公式,3、导数。
我这边简单讲解一下内容,方便你们理解。
方差的百度百科
百度百科描述一:方差是随机变量 X 的函数 g(X)=[X-E(X)]^2 的数学期望
百度百科描述二:方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量
我的理解:就是给你两组数,让你衡量一下两组数之间的误差(这个可以先理解为离散程度)。

交叉熵的百度百科
百度百科:交叉熵的定义为:对于给定的真实概率分布P和预测概率分布Q,它们之间的交叉熵定义为:H(P,Q) = -∑P(x)logQ(x)。其中,P(x)表示真实概率分布的概率,Q(x)表示预测概率分布的概率。

简单理解交叉熵的含义也就是两组函数(就是所谓的分布)之间的误差,就像衡量误差有不同的算法,你可以拿任意两个数做减法得出一个差值,我也可以拿这两个数的减法得到的差值再除以两个数的和得出一个差值。

方差、交叉熵的作用是用于损失函数。这里敲重点,大家先知道有这个东西。接下来会讲
上述理解非官方描述啊,是我自己为了方便大家理解才做的个比喻。后期算法章节会再详细讲解完整的公式并添加引用

导数
先放引用链接:https://www.zhihu.com/tardis/bd/ans/159589897?source_id=1001
想深入理解的可以看链接。
因为导数涉及微积分,这里简单讲一下我理解的导数:首先先有一个概念,不能说绝对吧,但是大部分数学函数都可以画图,只是图的维度可能不一样。只要是图,就都会有波动,即使是直线,那他的波动可能就是0。
而导数简单理解就是某一个点斜率。对没错,就是你们理解的 (y2-y1)/(x2-x1)。 只是这里的x2与x1的差值非常非常小,接近无穷小。
导数的作用是用于梯度下降。关于什么是梯度下降,接下来我会和损失函数一起讲哈。大家别急。


接下来开始正文:如何训练权重及预测。

回想我们第一章的内容,我们有一个公式:y= w1x1 + w2x2 + w3x3 + … + b
按照之前理解的w就是x的权重。(什么?你忘了?那快回去看看。这些内容都还是入门,如果没记住,后面可能会更困难。)
在第一章我们举的例子是:
你周末要去海边,可能有三种因素会限制你会不会去,而且每种因素对你去不去海边的的影响也不同
其中的因素就是我们的x1、x2、x3等,对你去不去海边的的影响就是权重,w1、w2 等。
在这个例子中,我们是假定了权重的取值,那是因为我理解这些因素对我的影响。可是在机器学习中,机器不知道哪一种因素对自己的影响是多大,如果我们随便写,随便配置。那这就是人工智障了。
所以要如何配置呢?我们可以从人类的活动来.
以练字为例,大部分人可能经历过,一开始写字歪歪扭扭的,不忍直视。但是人会从中学习,通过多次练习从而将字练得越来越好。
我们回忆一下上述的流程,以及每个流程中我们做了或者学到了哪些内容:
1、我们买了练字本,就是那种第一页很薄。第二页是标准字体的小本子,大家应该都有印象的。
2、我们开始练字,最开始写字歪歪扭扭。
3、我们在文档上从歪歪扭扭的字中学习到,原来应该横平竖直。
4、然后我们基于我们学到的横平竖直再去写字,可能没那么歪歪扭扭了,但是还是没达标。
5、我们再从刚刚学到的内容中分析,原来写字应该居中,应该balabala。。。。
6、我们再基于上次写的字,再总结经验,然后再去写。
7、我们终于写好了。写的满意了。

机器学习和上面是一样的。
我们来定义一下步骤:
1、我们最开始不管这个参数,随便写几个扔给他。
2、机器按照我们给的参数,并且配合我们给定的数据集(类似我们的练字本,数据集的概念我也会在后面讲解。),生成歪歪扭扭的数据(就是说这个生成的数据与我们提供的数据集中的真实数据是不一致的)
3、我们让机器去从这个步骤2生成的数据中去做比较(与我们数据集中的真实的数据),让他学习
4、机器学习了一些新的内容,这些新的内容会更新我们在步骤1中定义的参数。接下来我们让机器再按照我们本次更新之后的参数再去生成数据。
中间就省略了……
n、终于我们让机器在经过了很多次学习之后,机器生成的数据比较满意了。也就算是学习完了。

总结一下整体流程:
1、准备数据集
2、开发完模型之后,给模型设置一些参数****w,b
3、基于参数以及我们给定的数据集,可以生成一些结果,或者我们叫做预测值这一阶段我们叫做正向传播
4、基于预测值与我们数据集中的真实值(我们叫做标签),我们更新我们的参数w。这一阶段我们叫做反向传播
5、重复3、4许多许多次。
6、最终得到一组接近完美的w,b,这组数据使得我们给输入数据给模型之后,模型返回的结果与我们期望的数据已经非常接近了。
到上面其实,整体流程就已经结束了。

上述这两张大家如果理解了,也就是入门了。
机器学习其实相对来说并不是很困难,大家不用担心自己学不会。


五、写在末尾

每个人对于入门的定义不一样,有的是基础概念全部都要理解。我个人认为是,对于一件事情有了整体框架就算入门。框架的内容还需要一点点完善。接下来我开始的专题就是【机器学习记录随笔-基础篇】其中会逐步对入门篇的内容进行逐步填充。
期望可以给大家一些帮助。
【机器学习记录随笔-入门篇】的内容大家看了可能会有很多疑惑,比如:我们提供的数据集长什么样子、正向传播公式、反向传播公式、损失函数具体是什么含义等等。再比如有一基础或者了解一些的人可能会问:监督学习、非监督学习、强化学习等都是什么内容。不用着急,我接下来会逐步讲解。在基础篇,我会把上述每一个内容都单独整理成一个独立章节,这样如果大家后期忘记了哪些内容,也可以直接到目录找到链接,回来学习。
PS:如果大家有哪些内容不理解,欢迎评论留言。我不能说自己每天都看,但是我看到之后会及时回复。
大家加油 >。<

  • 20
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值