关闭

机器学习小试(4)当前教材中场休息

标签: 机器学习神经网络
859人阅读 评论(0) 收藏 举报
分类:

学习http://mooc.guokr.com/note/16274/这个视频教程已经一段时间了,监督学习部分基本上过完,一些疑问,一些思考,值得记下来。
1. 教材上半部分的小结
上半部分主要介绍了监督学习的一些经典方法。回过头来看,这部分经典方法主要解决函数拟合和分类问题。在训练集已知确切结果的情况下,通过线性回归、逻辑回归、构造神经网络等手段,完成对测试集输入的拟合、分类。
实际上,监督学习这一块介绍的经典方法是对大学教育《模式识别》、《数值计算》、《数理统计》等课程涉及内容的融汇与应用,仍然属于较为基础、易懂的部分。之所以这样说,主要是有以下几点:
(1) 基于特征的拟合与分类: 必须从输入数据构造一定的特征作为输入(最后说的支持矢量机已经带有一些自构造特征的苗头,但依旧是传统方法)。如果没有构造好特征,比如多项式模型漏了某个关键交叉项,拟合的效果就好不了。
(2)定步长BP算法进行梯度加权反馈:对神经网络的训练采用的是模式识别中的经典案例,定步长BP算法。
但是,还是要大赞教材。由于授课者已经对机器学习领域的理论融会贯通,虽然是利用经典教材中的现有知识点讲解,但把这些独立、零碎的知识整合成为层次分明、关联有序、巨细张弛的知识结构,实属不易。

2. 阅读非监督部分之前的思考

(1)特征的构造,怎么破?
传统的拟合预测/分类识别算法,需要设计者根据应用场景,提取出一组特征作为输入。比如图像识别中的尺度不变特征(SIFT)及其庞大的衍生家族。然而稍微复杂的应用,我们观测到的现象与本质之间存在着非常复杂的联系,很难准确找到哪些特征是必须的。
即使简化N倍,假设小张给了1000组y,x值,用的是

y=13tan(x)+7log2(x)11sin(x)0.3
小李在不知道公式的情况下,使用多项式/神经网络等方法,拟合出来的效果肯定不如用知道大致公式时的模型:
y=Atan(x)+Blog2(x)+Csin(x)+D

来的精确。恰当的从输入x构造出三个特征:
x1=tan(x),x2=log2(x),x3=sin(x)

可以使非线性问题立刻变为线性问题。因此,对传统的识别分类来说,选择合理的特征可以大大降低复杂度。

(2)脑袋里的一些胡思乱想–卷积神经网络的来头
现在人这么聪明,一定有一种自动选择特征的方法。我指的不是SVM,支持矢量机用于分类的特征构造方法太暴力了。从多项式拟合开始,如何知道需不需要交叉项、高次项?或者如何让算法自己去寻找?
假设现在的输入X是一个m维的矢量X={x0...xm1}
- 各个xi的二次项、交叉项可以通过卷积运算来“生产”:

X(k)=conv(X(k),X(k))
将会生产出大量的交叉项、平方项。比如x1x2x3x4之类。
- 如果安排多次卷积,将会生成高次交叉项. 如 x21x2之类。
- 自动训练网络中的权,会不会有可能打开那些需要的特征通路,关闭那些无效的通路?

3 关于我们的大脑
神经网络计算与人脑的关系,或许可以类比飞机与动物。虽然飞机、鸟、蝙蝠都能飞,但这三个的原理实际上各不相同。飞机与鸟比较像一些,与蝙蝠差的远一些。蝙蝠更像一个抱水的游泳者,鸟或许在滑翔阶段与飞机类似。现在的机器学习,神经网络,在模拟人脑方面,如果已经达到飞机与鸟的物理相似性,那就反过来意味着无趣。原来“我”、“物”的存在感,就是驻留在大脑中的结构。这个结构是由皮肤、嗅觉、听觉、视觉、味觉等传感器输入的信息训练出来的;喜怒哀乐都是代价函数的输出而已。额,我宁愿这不是真的。

0
0
查看评论

中场休息

中场休息  大家可能都知道这样一个道理,鸡蛋还是分开放比较好,但是现在手机却是已经完全的反了过来,大量整合的功能,带来的是一些功能的没落,而在这场激烈的智能手机性能角逐中,付出最大代价的恐怕就是我们的手机电影了。  数年前,刚开始流行大屏手机的时候,让手机电影成为了新时代的宠儿,...
  • nvxiaot
  • nvxiaot
  • 2011-06-23 10:00
  • 169

累了,中场休息

http://www.hzrbbs.com/thread-21062-1-1.html http://www.hzrbbs.com/thread-21074-1-1.html http://www.hzrbbs.com/thread-21085-1-1.html ...
  • qq_21092517
  • qq_21092517
  • 2014-09-21 16:01
  • 63

机器学习小试(1)TensorFlow的第一个程序

最近,因为项目需要开始接触机器学习。虽然在学校对神经网络等算法已有接触,但早已忘得差不多了。在学习TF之前,建议和我一样,先从理论背景开始看起。
  • goldenhawking
  • goldenhawking
  • 2017-07-05 12:58
  • 770

推荐这六本关于机器学习的书籍,并说说它们的优缺点

万事开头难。第一本该介绍哪个,或者第一本该看哪个,实在是不好讲。即使是Amazon上的书评,老外也是理工科两极分化严重,每本都有很多人说适合入门用的,也有很多人说不适合的。但是个人认为,第一本一定要能用最清晰的语言,最简单的例子把尽量多的核心概念、术语讲在前面,最好还要有尽可能多的图,这样初学者才能...
  • memray
  • memray
  • 2015-09-08 03:24
  • 32921

机器学习入门心得——书籍、课程推荐

MOOCsCoursera 上 Andrew Ng 的 Machine Learning 课程:适合 Machine Learning 的入门,我当时是研一的上学期听的这个课,学校的课还比较多,那时是完全按照他的课程日历来学的,每周都有Deadline,一共学习了3个月,就是通过这个课对机器学习有了...
  • Shingle_
  • Shingle_
  • 2016-07-16 16:00
  • 9583

饕餮元年开发日记(中场休息篇)

事实证明,代码与文字不可得兼。在悠悠闲闲地写产品文档时,写一点文字也是很正常的事情。但真正开始写起代码来时,即使有写文字的想法,也绝对不会在敲了几百行代码后,还会有摆弄键盘的想法了。 我是一个极其没有时间概念的人,写完系统分析后,我在悠闲中度过了几周的时间,每周只是在周末写一点程序,但也只是适可而止...
  • aawolf
  • aawolf
  • 2004-06-29 10:36
  • 2239

机器学习&统计学相关书籍

1. 《统计学完全教程》 All of statistics 卡耐基梅隆 沃塞曼 2. 第四版《概率论与数理统计》 莫里斯。德格鲁特(Morris H.DeGroot)和马克。舍维什(Mark J.Shervish) 3. 《线性代数导论》 吉尔伯特。斯特朗--网上视频教程堪称经典 4. 《数值线性...
  • Sun7_She
  • Sun7_She
  • 2017-01-11 10:05
  • 1075

脑力劳动者如何更好地休息

■脑力劳动者,补瞌睡对你没什么用 你写了一天的文案,主持了一天的会议,当一切都结束了,你叹到:太累了,这一天我要睡个好觉。我们的常识使得我们对疲劳的第一反应就是“去躺躺吧”。但这是一个陷阱。 睡眠的确是一种有效的休息方式,但它主要对睡眠不足着或体力劳动者适用。对体力劳动者来说,“疲劳”主要是由...
  • YEYUANGEN
  • YEYUANGEN
  • 2012-02-17 15:14
  • 4110

机器学习面试系列三

41.线性分类器与非线性分类器的区别以及优劣   如果模型是参数的线性函数,并且存在线性分类面,那么就是线性分类器,否则不是。   常见的线性分类器有:LR,贝叶斯分类,单层感知机、线性回归   常见的非线性分类器:决策树、RF、GBDT、多层感知机   SVM两种都有(看线性核还是高斯核)   线...
  • Learn_ZhangK
  • Learn_ZhangK
  • 2017-11-20 13:52
  • 121

随机过程的参考书籍

我读过的最简单的随机过程当属张波张景肖的《应用随机过程》,清华版,不过马氏过程写的不够详细,这方面最好的当属何声武的《随机过程引论》,写得相当好,简单明白易懂。至于稍微深入一点点的可以看看何书元的《随机过程》,证明除极个别外比较不错,林元烈的《应用随机过程》很是不错,看的很有味。  ...
  • ningyaliuhebei
  • ningyaliuhebei
  • 2015-06-09 09:42
  • 1461
    个人资料
    • 访问:352843次
    • 积分:4851
    • 等级:
    • 排名:第7022名
    • 原创:99篇
    • 转载:3篇
    • 译文:0篇
    • 评论:338条
    最新评论