大数据机器学习(一)概述

2020.09.17 星期三课程笔记

1.学习资源

(1)在线课程

①清华学堂在线-袁春老师的《大数据机器学习》
②李宏毅的机器学习课程(中文)
③林轩田《机器学习基石上下》(中文)
④CV Stanford Li Feifei CS231N
⑤NLP Stanford CS224N
⑥Machine Learning: Andrew Ng 个人推荐这个可以看看
⑦Neural Networks for Machine Learning: Geoffrey E. Hinton

(2)参考书

在这里插入图片描述
其中以李航老师《统计学习方法》第二版为主要教材,南大周志华老师的“西瓜书”《机器学习》为辅,有兴趣还可以看看第三本《PRML》和最后一本“鲜花书”《Deep Learning》

2.期末考核方式

在这里插入图片描述

3.机器学习(Machine Learning)是个啥

在这里插入图片描述

(1)机器学习的定义

其实没有标准定义,各有个的说法,常见的有以下几种定义:
① “机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。
② “机器学习是对能通过经验自动改进的计算机算法的研究”。
③“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”
④ A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

(2)机器学习相关概念

以后在教材及论文中会经常遇到这些词
Artificial Intelligence 人工智能
Deep learning 深度学习
Data mining 数据挖掘
Computer vision 计算机视觉
Statistical learning 统计学习
AI\ML\DL有以下包含关系
在这里插入图片描述
Q1:Representataion Learning 是什么?
表示学习,具体见下面链接
https://blog.csdn.net/u010417185/article/details/83089882
注:MLP 多层感知机
ML 数据分析工具
DB 数据管理工具

机器学习和统计学习关系密切,有人提出这个公式
在这里插入图片描述

4.机器学习发展历程

起源于,1956年达特茅斯会议
在这里插入图片描述
用一张图片展示主要几种算法发展过程
在这里插入图片描述
Convolutional Neural Network 卷积神经网络(CNN)
Hinton等人提出,2012年在ILSVRC大方异彩,大幅度降低了错误率。
注:人类分类错误率5.1%
内部结构图我还没看明白
在这里插入图片描述
在这里插入图片描述
图灵奖三位大佬及其工作
在这里插入图片描述
机器学习两大顶会: ICML & NeurIPS
发展报告上呀近十年最佳论文,有时间可以看看

5.迁移学习

形象理解:比如你会打乒乓球,那么学习打羽毛球就更容易。
在这里插入图片描述
从源模型迁移到目标模型上:
在这里插入图片描述
有一说一,这个公式没懂呀!

6.强化学习

2016年Alphago以3:1战胜围棋大师李世石;
AlphaZero不需要专家数据,通过自训练(Self-Play)进行学习和评价
以3:0战胜围棋世界冠军柯洁

在星战游戏上,AlphaStar所向披靡!

7.思考深度学习的问题

在这里插入图片描述
众所周知,神经网络可解释性是真的差,只看最终结果无法判断问题出在哪里。如何透明化,是个问题?

好了,第一节先到这啦!下课!

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Spark是一个开源的大数据处理框架,它可以在分布式计算集群上进行高效的数据处理和分析。Spark的特点是速度快、易用性高、支持多种编程语言和数据源。Spark的核心是基于内存的计算模型,可以在内存中快速地处理大规模数据。Spark支持多种数据处理方式,包括批处理、流处理、机器学习和图计算等。Spark的生态系统非常丰富,包括Spark SQL、Spark Streaming、MLlib、GraphX等组件,可以满足不同场景下的数据处理需求。 ### 回答2: Spark是一个分布式计算框架,其出现是为了解决Hadoop MapReduce计算模型中的许多性能问题。与MapReduce相比,Spark的计算速度更快,因为它可以在内存中缓存数据并使用更高效的调度算法。此外,Spark还支持多种语言,包括Scala、Java、Python和R等。 Spark有多个模块,包括Spark Core、Spark SQL、Spark Streaming、Spark MLlib和Spark GraphX等。Spark Core是Spark的基本组件,在其中实现了RDD这种抽象数据结构,它可以将数据分布在多台计算机上,从而实现分布式计算。Spark SQL提供了用于处理结构化数据的API和查询语言,它允许将Spark与现有的SQL工具和数据源一起使用。Spark Streaming可以在实时流处理中使用Spark来处理数据,并提供了与常见的消息队列和流处理系统的无缝集成。Spark MLlib提供了许多机器学习算法,可以在分布式环境中进行大规模的机器学习。Spark GraphX是用于图计算的组件,可以用于处理较大的网络图和社交网络图等。 Spark可以在各种场景下使用,例如大型金融数据分析、人工智能、机器学习和图计算等领域。与Hadoop相比,Spark具有更快的速度、更轻量的资源消耗和更广泛的开源社区支持,已经成为许多大规模数据分析和处理项目的首选技术之一。 总之,Spark是一个功能强大的分布式计算框架,具有快速、灵活和多语言支持等特点,并且在实际应用中表现出色,是大数据学习中不可或缺的重要技术之一。 ### 回答3: Spark是一个快速、通用、分布式计算引擎,可以在大规模数据集上进行高效的数据处理。Spark是基于内存的计算引擎,可以将数据存储在内存中,从而提高计算速度。Spark支持多种编程语言,包括Java、Scala、Python和R,因此很容易上手,并且可以适应各种应用场景。 Spark的核心组件包括Spark SQL、Spark Streaming、Spark MLlib和Spark GraphX等,在处理不同类型的数据上都具有很强的适应性。Spark SQL可以处理结构化数据,Spark Streaming可以实现实时数据处理,Spark MLlib可以进行机器学习任务,Spark GraphX可以处理图形数据。此外,Spark还提供了一个交互式的shell,方便用户测试和调试代码。 在分布式环境下,Spark使用集群模式进行计算。集群中的每个节点都有自己的内存和CPU资源,Spark通过将任务分发到不同的节点上进行并行计算以提高计算速度。Spark还提供了一些高级特性,如广播变量、累加器和检查点等,以提高计算性能和可靠性。 在大数据处理方面,Spark有着广泛的应用场景。例如,Spark可以用于数据清洗和转换、数据仓库构建、实时数据处理和机器学习等任务。Spark还支持多种数据源,包括关系型数据库、Hadoop HDFS、NoSQL数据库和云存储等,这些数据源都可以与Spark集成,以进行数据分析和处理。 总之,Spark是一个非常重要和流行的大数据处理工具,它有强大的功能和广泛的应用场景。对于想要学习大数据处理的人来说,掌握Spark是必不可少的。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值