Python机器学习入门体会

接触python也有半年了,一般碰python的人都会去碰这几个方面,爬虫,江狗,再有就是机器学习相关,我也不例外,毕竟python的库是那么好用。之前我在对机器学习完全一无所知的情况下,尝试了用keras搭卷积神经网络去识别一些图片,结果还可以,我觉得还挺惊奇的,毕竟之前一直觉得机器识别图片这种事情是很牛逼的,没想到使用keras的api几行代码就搭好模型了,之后你只要知道怎么把图片放到numpy的array里面,就可以用自己爬的图片进行学习了。真的是很方便,

后来又用了一些大佬的代码尝试了一下GAN,结果就是标题的那个图,基本训练得不成人形,但还是对于算法能做到的事情感到惊奇,更惊奇的是这些还没提出多久的理论通过python我这种小白也能用上了感觉能做很多有趣的事呢(up最近就在训练网络生成布洛妮娅布洛妮娅世界第一可爱!)之前使用tensorflow进行GAN的妹子头像生成,最好的结果就这张。。我觉得。。

竟然还是个笑脸。。。不过其他都惨不忍睹,虽然有点人形,但是依旧非常崩坏。曾想好好看看makemoegirls那个非常惊艳的模型是怎么做的,一直没有空闲。

模型表现不好,就会去想为什么会这样,怎么去改进,但是我除了调用api,好像也不知道别的什么的了,于是我开始想要了解这些机器学习的算法是怎么算的,就找了视频课来看。

视频课是李宏毅老师的2017机器学习,听久了感觉我也变成台湾腔了,没有字幕,术语李老师基本上都是英文,于是现在好多词我都不知道中文翻译是啥,比如hinge loss,(刚刚查了hinge是铰链的意思。。为啥啊)不过无妨,知道是啥就行了

所以下面会记录一下自己对这些算法的心得,肯定有说错的,以后再回来慢慢更正。

linear regression

最普通的线性回归,结果发现高中就学过了,特别是最小二乘法,原来还可以叫square loss

李宏毅老师经常说,机器学习其实就是3件事,找一个function set 然后去评价function的好坏(所以我们引入loss function) 最后去寻找最好的function,(常常都是用base gradient descent的方法)

线性回归要找的那个函数式线性的,就是wx+b这种形式的,要问为什么一定要是线性的,实际上也可以不是,但是是基于这种假设,你的样本的feature跟output可能存在线性的关系。当然其实linear regression和logistic regression也可以有核函数的那种形式。

值得注意的是linear regression的loss function里面有个平方(y-f(x))^2,之前我一直不知道这个平方是为什么,其实她是基于了误差服从高斯分布这个假设,高斯分布那个e上面的项有个平方,所以这里有。

logistic regression

lr要找的函数跟上面的形式一样,不过要通过一个sigmod function,最后映射到(1,0)之间,实现分类。多分类的话可以通过softmax 事实上1,0不是必要的,可以取随便两个值,这样的话你的loss function就会写得跟普通那个式子不一样,但是都可以通过调整系数使得他们都等价。

损失函数就不写了,有log感觉写起来好麻烦,插公式又不会。。。。

lr里面用到了条件概率,它也是基于一种假设,就是说你的training data 是从一个高斯分布里面sample出来的,那么我们就认为sample出这组trainingdata的几率最大的那个高斯分布,就是我们要找的。

于是就是有这个式子

l(θ)=概率x概率x概率x概率。。。。

反正就是那个式子。。我们的目的就是max l(θ)。

方法还是gradient descent,这个地方的求梯度看得我蛋疼。。确实是math warning。。虽然结论是很清晰的。lr我在不依靠任何库(numpy也不要)情况下就用python的加减乘除实现了之后,才总算明白是怎么算的。。。不过求梯度那里还是有点复杂啊

Neural Network

之前一直觉得这个词非常高大上,简直就是看不懂。听课了之后,原来每个neuron就是一个lr,可能激活函数不同,但是仍然是线性的。于是把很多个lr叠起来,就有很多的neuron,就成了神经网络。。

他的loss function和lr类似,但是由于有层次结构,所以求梯度的时候要用bp算法,关于bp我只是大概知道是从output那一侧去一层层迭代,但是由于没有亲手演算过,很多细节的东西没有深入理解,这里就不多提。

知道nn实际上是lr叠起来这件事还是挺让我神奇的,毕竟一开始使用keras就搭了nn,原来内部结构是这样啊。。

关于nn还有很多东西,各种结构,各种tips,各种层,目前尝试得也不是很多,主要是cnn,gan之类的衍生。总体来说在output之前,就是在提取特征,这点和svm和核函数映射有点像,但是nn的特征提取更加丰富,毕竟你用核的话,映射到高维空间那个向量的形式并不是很随便的,要满足一定的形式做內积才能简化,而nn的特征提取是比较自由的,你可以定义各种各样的特征,各种各样的结构,不知道这样说对不对。

svm

最后是svm,我了解的也不多。linear-svm和lr其实就是loss function的差别,所以说机器学习的很多思想是相通的。

svm我觉得比较有意思的点,无论你是从loss function的角度(只考虑线性),定义的hinge loss。还是从那个基于最大间隔的角度,最后化为在限制条件下的凸优化问题,最后都是殊途同归的,不过对我来说还是hinge loss那个比较好理解,而且也能用gradient descent来做,如果是凸优化那个。。我就比较难理解,特别是啥kl散度,拉格朗日对偶??

听完之后我也终于明白支持向量机的意思,原来支持向量就是那个东西啊。。对于决定那个决策边界,只有支持向量的点事有用的,不像lr,所有点都有考虑,突然觉得那些不是支持向量的点好可怜啊。。。。。。

就写那么多了

希望有时间能好好train一下生成布洛妮娅头像的模型。。。。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值