大数据融合与数据仓库 -- 一些思考，2024年最新2024年大数据开发大厂面试

最新推荐文章于 2024-08-08 11:05:52 发布

2401_84181340

最新推荐文章于 2024-08-08 11:05:52 发布

阅读量979

点赞数 23

分类专栏： 2024年程序员学习文章标签：大数据数据仓库面试

本文链接：https://blog.csdn.net/2401_84181340/article/details/137795143

版权

2024年程序员学习专栏收录该内容

63 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip204888 （备注大数据）

正文

4. 大数据给软件开发者带来的挑战是什么?（What would be the _challenges_ that Big Data brings to software developers?）

（1）企业内部数据孤岛严重，业务部门没有清晰的大数据需求。从根本上影响了企业在大数据方向的发展，也阻碍了企业积累和挖掘自身的数据资产。在很多企业中尤其是大型的企业，数据常常散落在不同部门，而且这些数据存在不同的数据仓库中，这导致企业内部自己的数据都没法打通。如果不打通这些数据，大数据的价值则非常难挖掘。因此，如何将不同部门的数据打通，并且实现技术和工具共享需要大数据从业者和专家一起，推动和分享大数据应用场景。

（2）传统的数据库部署不能处理TB级别的数据，快速增长的数据量超越了传统数据库的管理能力。因此，如何构建分布式的数据仓库，并可以方便扩展大量的服务器成为很多传统企业的挑战;传统企业的数据库，对数据处理时间要求不高，这些数据的统计结果往往滞后一天或两天才能统计出来。但大数据需要实时处理数据，进行分钟级甚至是秒级计算。传统的数据库架构师缺乏实时数据处理的能力;

（3）一般大多企业采用传统的数据库技术，在设计的开始就没有考虑数据类别的多样性，尤其是对结构化数据、半结构化和非结构化数据的兼容;海量的数据需要很好的网络架构，需要强大的数据中心来支撑，数据中心的运维工作也将成为挑战。如何在保证数据稳定、支持高并发的同时，减少服务器的低负载情况，成为海量数据中心运维的一个重点工作。

5. 什么是数据备份和恢复管理中的增量备份?（What is _incremental backup_ in Data Backup and Recovery management?）

增量备份的定义：备份自上一次备份（包含完全备份、差异备份、增量备份）之后有变化的数据。

增量备份****：****在第一次完整备份之后，第二次开始每次都将添加了存档属性的文件进行备份，并且在备份之后再把这些存档属性清除。为什么要清除存档属性呢？这就是为了下一次备份的时候判断是否有文件变化，因为用户在每次备份以后修改这些被清除存档属性的文件，存档属性就会自动加上，相当于用户告诉系统，这些文件有变化，你下一次就备份这些文件，其他没有存档属性的就不需要备份，这就是增量备份的工作机制。

****增量备份的特点：****因每次仅备份自上一次备份（注意是上一次，不是第一次）以来有变化的文件，所以备份体积小，备份速度快，但是恢复的时候，需要按备份时间顺序，逐个备份版本进行恢复，恢复时间长。

****差异备份的定义：****备份自上一次完全备份之后有变化的数据。

****差异备份：****在第一次完整备份之后，第二次开始每次都将所有文件与第一次完整备份的文件做比较，把自第一次完整备份以来所有修改过的文件进行备份，且以后每次备份都是和第一次完整备份进行比较（注意是第一次，不是上一次），备份自第一次完整备份以来所有的修改过的文件。因此，差异备份在备份完毕之后不需要清除文件的存档属性，因为这些文件和下一次备份没有什么关系，它仅仅和第一次完整备份的数据进行比较（第一次完整备份之后是清除存档属性的）。

****差异备份特点：****占用空间比增量备份大，比完整备份小，恢复时仅需要恢复第一个完整版本和最后一次的差异版本，恢复速度介于完整备份和增量备份之间。

增量备份、差异备份和完全备份的区别**。******

****完全备份：****备份全部选中的文件夹，并不依赖文件的存档属性来确定备份那些文件。（在备份过程中，任何现有的标记都被清除，每个文件都被标记为已备份，换言之，清除存档属性）。 ****差异备份：****差异备份是针对完全备份：备份上一次的完全备份后发生变化的所有文件。（差异备份过程中，只备份有标记的那些选中的文件和文件夹。它不清除标记，既：备份后不标记为已备份文件，换言之，不清除存档属性）。 ****增量备份：****增量备份是针对于上一次备份（无论是哪种备份）：备份上一次备份后，所有发生变化的文件。（增量备份过程中，只备份有标记的选中的文件和文件夹，它清除标记，既：备份后标记文件，换言之，清除存档属性。）

简单的讲，完整备份就是不管三七二十一，每次都把指定的备份目录完整的复制一遍，不管目录下的文件有没有变化；增量备份就是每次将之前（第一次、第二次、直到前一次）做过备份之后有变化的文件进行备份；差异备份就是每次都将第一次完整备份以来有变化的文件进行备份。

6. SSD (Solid State Disks)的利与弊是什么?（What may be the pros and cons of _SSD (Solis State Disks)_?）

固态硬盘（Solid State Drives），简称固盘，是用固态电子存储芯片阵列而制成的硬盘。SSD硬盘之所以需要特别优化系统配置，主要是由其特性决定：

向SSD硬盘写入数据时，不能像写入普通硬盘那样直接覆盖，而是要先擦除、再写入。如果想保留块中的其它数据，需要在擦除前要先读出该块的数据，并在修改后写回。所以每一次写操作实际写到硬盘上的数据很可能原来计划比要写的数据多，这是SSD的读取比写入快得多的原因之一。SSD的每一个存储单元被擦除、写入的次数是有限的。虽然每个存储单元的寿命有限，但每个物理存储单元对应的逻辑地址没必要是一成不变的。通过将要写入的数据动态地映射到不同的物理存储单元，SSD的寿命可以得到明显的提升。

优势：

（1）速度快。速度分为连续传输和随机读写。前者比机械盘快3－5倍，后者比机械盘快几十上百倍。所以，启动系统、运行软件，进入游戏，都比机械盘快得多。

（2）节能。不怕震动，甚至不怕摔。重量轻。

（3）寿命长。固态硬盘如果不是特意大量写入，一般用二十年是毫无问题的。

弊端****：****

（1）价格太贵。128G的固态盘比1T的机械盘还贵。

（2）兼容性问题比较多。固态硬盘和老主板的兼容性问题较多。

（3）操作系统有限制。必须win7以上的操作系统，必须开ahci和4K对齐。

（4）数据安全性差一点。固态硬盘的数据不如机械硬盘安装，第一怕突然断电，第二怕高温。

7. 什么是认知物联网?（What is _Cognitive IoT_?）

物联网是通过各种传感技术（RFID、传感器、GPS、摄像机、激光扫描等）、各种通讯手段（有线、无线、长距），将任何物体与互联网相连接，采集其声、光、热、电、力学、化学、生物、位置等各种需要的信息，与互联网结合形成的一个巨大网络。其目的是实现物与物、物与人，所有的物品与网络的连接，进而实现“管理、控制、营运”一体化的一种网络。

****物联网三个重要特征：****1.全面感知，利用RFID，传感器，二维码等随时随地获取物体的信息，比如装载在高层建筑、桥梁上的监测设备；人体携带的心跳、血压、脉搏等监测医疗设备；商场货架上的电子标签；2.可靠传递，通过各种电信网络与互联网的融合，将物体的信息实时准确地传递出去；3.智能处理，利用云计算，模糊识别等各种智能计算技术，对海量的数据和信息进行分析和处理，对物体实施智能化的控制。

认知物联网是将认知计算技术与互连设备产生的数据和这些设备可以执行的操作结合使用。认知涉及三个关键要素：理解、推理、学习。认知物联网技术将使企业领导者有可能更深入地了解世界上正在发生的事情。通过将情报注入系统和流程中，企业将不仅能够更高效地做事，而且还能提高客户满意度，发现新的商机以及预测风险和威胁，从而更好地应对。

第一代物联网技术为我们提供了众多信息，这些信息可能对提高运营效率产生重大影响。下一代技术创建了共享信息的设备的庞大社区，这些信息又可以在更大的范围内进行解释，并由使用认知系统的人们进行管理。在认知物联网时代，没有机器是孤岛。我们在物联网产品组合中添加了几种认知技术-机器学习，自然语言处理，视频和图像分析以及文本分析。

8. IT架构师的工作职责是什么?（What should be the job responsibility of an _IT Architect_?）

系统架构师是一个既需要掌控整体又需要洞悉局部瓶颈并依据具体的业务场景给出解决方案的团队领导型人物。架构师的一个重要职责是，确保团队有共同的技术愿景，以帮助我们向客户交付他们想要的系统。

确认和评估系统需求，给出开发规范，搭建系统实现的核心构架，并澄清技术细节、扫清主要难点的技术人员。主要着眼于系统的"技术实现"。因此他/她应该是特定的开发平台、语言、工具的大师，对常见应用场景能马上给出最恰当的解决方案，同时要对所属的开发团队有足够的了解，能够评估自己的团队实现特定的功能需求需要的代价。系统架构师负责设计系统整体架构，从需求到设计的每个细节都要考虑到，把握整个项目，使设计的项目尽量效率高，开发容易，维护方便，升级简单等。

软件架构师在整个软件开发过程中都起着重要的作用，并随着开发进程的推进而其职责或关注点不断地变化，在需求阶段，软件架构师主要负责理解和管理非功能性系统需求，比如软件的可维护性、性能、复用性、可靠性、有效性和可测试性等等，此外，架构师还要经常审查客户及市场人员所提出的需求，确认开发团队所提出的设计;在需求越来越明确后，架构师的关注点开始转移到组织开发团队成员和开发过程定义上;在软件设计阶段，架构师负责对整个软件体系结构、关键构件、接口和开发政策的设计;在编码阶段，架构师则成为详细设计者和代码编写者的顾问，并且经常性地要举行一些技术研讨会、技术培训班等;随着软件开始测试、集成和交付，集成和测试支持将成为软件架构师的工作重点;在软件维护开始时，软件架构师就开始为下一版本的产品是否应该增加新的功能模块进行决策。

9. 对于软件开发人员来说，Mahout的优势是什么?（What could be the _Mahout Strengths_ for software developers?）

Apache Mahout是Apache Software Foundation （ASF）旗下的一个开源项目，提供了一些经典的机器学习的算法，皆在帮助开发人员更加方便快捷地创建智能应用程序。目前已经有了三个公共发型版本，通过ApacheMahout库，Mahout可以有效地扩展到云中。Mahout包括许多实现，包括聚类、分类、推荐引擎、频繁子项挖掘。

Apache Mahout的主要目标是建立可伸缩的机器学习算法。这种可伸缩性是针对大规模的数据集而言的。Apache Mahout的算法运行在ApacheHadoop平台下，它通过Mapreduce模式实现。但是，Apache Mahout并非严格要求算法的实现基于Hadoop平台，单个节点或非Hadoop平台也可以。Apache Mahout核心库的非分布式算法也具有良好的性能。

Mahout 是一个机器学习 Java 类库的集合，用于完成各种各样的任务，如分类、评价性的聚类和模式挖掘等。Mahout开源项目就是一个Hadoop云平台的算法库，已经实现了多种经典算法，并一直在扩充中，其目标就是致力于创建一个可扩容的云平台算法库。

在Hadoop云平台下编程不仅要求用户对Hadoop云平台框架比较熟悉，还要对Hadoop云平台下底层数据流、Map和Reduce原理非常熟悉，这是基本的编程要求。此外，用户要编写某一个算法还需要对该算法的原理比较熟悉，即需要对算法原理理解透彻。总体来看，编写云平台下的算法程序是属于高难度的开发工作了。但是，如果使用Mahout，情况就会有很大的不同，用户再也不用自己编写复杂的算法，不需要掌握太高深的云平台的框架和数据流程的理论知识。用户所需要了解的只是算法的大概原理、算法实际应用环境和如何调用Mahout相关算法的程序接口。当然，在具体的项目中，用户还应该根据实际需求在Mahout源代码基础上进行二次开发以满足具体的实际应用情况。

10. Spark的主要优势是什么?（What’re the _key advantages_ of Spark?）

（1）快:与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上；而基于磁盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎，可以通过基于内存来高效地处理数据流。

（2）容易使用:Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户可以快速构建不同应用。而且Spark支持交互式的Python和Scala的Shell，这意味着可以非常方便的在这些Shell中使用Spark集群来验证解决问题的方法，而不是像以前一样，需要打包、上传集群、验证等。这对于原型开发非常重要。

（3）通用性：Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（通用Spark SQL）、实时流处理（通过Spark Streaming）、机器学习（通过Spark MLlib）和图计算（通过Spark GraphX）。这些不同类型的处理都可以在同一应用中无缝使用。

（4）可融合性：Spark非常方便的与其他开源产品进行融合。比如，Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，并且可以处理所有Hadoop支持的数据，包括HDFS、HBase和Cassanda等。

11. 区块链的主要优势是什么?（What’re the key advantages of Blockchain?）

区块链是一种共享的分布式数据库技术，其优势主要突出表现在分布式去中心化、无须信任系统和不可篡改和加密安全性三个方面。”

****（1）****分布式去中心化

由于区块链中每个节点和矿工都必须遵循同一记账交易规则，而这个规则是基于密码算法而不是信用，同时每笔交易需要网络内其他用户的批准，所以去中心化的交易系统不需要一套第三方中介结构或信任机构背书。

而在目前，不管是传统的交易系统，还是第三方交易系统，都是基于中央账簿的体系中，中央账簿就扮演着信息保管员的角色，每笔交易需要第三方中介或者信任机构背书，这属于中心化的交易网络。

****（2）****无须信任系统

区块链网络中，通过算法的自我约束，任何恶意欺骗系统的行为都会遭到其他节点的排斥和抑制，因此，区块链系统不依赖中央权威机构支撑和信用背书。传统的信用背书网络系统中，参与人需要对于中央机构足够信任，随着参与网络人数增加，系统的安全性下降。和传统情况相反，区块链网络中，参与人不需要对任何人信任，但随着参与节点增加，系统的安全性反而增加，同时数据内容可以做到完全公开。

****（3）****不可篡改和加密安全性

区块链采取单向哈希算法，同时每个新产生的区块严格按照时间线形顺序推进，时间的不可逆性导致任何试图入侵篡改区块链内数据信息的行为都很容易被追溯，导致被其他节点的排斥，从而可以限制相关不法行为。

12. 使用实际虚拟实境的应用范围为何?有什么好处呢?（What may be the application areas of IT services using practical virtual reality? And what could be the benefits?****）

（1）游戏和娱乐（Gaming and Entertainment）

虚拟现实和增强现实技术即将改变艺术、游戏和娱乐行业，包括：虚拟现实和艺术（Virtual Reality and the Arts）；游戏（Gaming）；基于位置的娱乐（Location-Based Entertainment）；沉浸式视频/电影虚拟现实（Immersive Video/Cinematic Virtual Reality）。可以创作出在短短几年前还无法想象的作品。规模不再是问题。单用户第一视角游戏令人印象深刻的。增加了用户体验感。混合现实游戏(top)免费漫游游戏只回复通过头戴显示器提供的虚拟环境的图形表示，用户可以在定义的开放空间内自由移动。

（2）建筑****（Architecture and Construction）****

从协助建筑师炼油设计概念,使总承包商能够更有效地管理大型项目涉及团队来自不同学科,在现有房地产的销售,协助沉浸式虚拟现实系统转型对建筑的影响,工程和建筑行业。包括：人工空间；建筑设计；施工管理；房地产销售申请；建筑声学。

考虑的结构或空间越复杂，就越需要将这些心理图像外化，以实现更详细的视觉检查和确认，并将这些设计思想传达给客户。沉浸式的建筑演练已经越来越多地依赖于建筑师和工程师、培训中的学生、房地产经纪人和其他人来有效地外化和体验复杂的、可居住的3D结构。越来越多的建筑设计公司现在正在使用复杂的声学建模软件工具来预测空间或结构的声学性能，从而使客户能够做出最佳的设计决策

（3）科学与技术（Science and Engineering）

交互式沉浸式显示系统的使用在许多工程领域得到了广泛的应用。从设计过程的开始，通过促进分布在全球多个地点的多学科团队之间的决策制定，这些技术对设计质量、成本控制和工作流效率产生了深远的影响。包括：模仿和创新（Simulate and Innovate）；造船和海洋工程（Naval Architecture and marine Engineering）；汽车工程（Automotive Engineering）；航空航天工程（Aerospace Engineering）；核工程与制造（Nuclear Engineering and Manufacturing）。

虚拟现实和增强现实正在成为重要的工具，产生更高质量的可交付成果，减少设计缺陷，并增加成本和工时方面的节省。减少或消除对物理原型的需求，早期的错误进行识别。

（4）健康与医疗（Health and Medicine）

虚拟现实和增强现实在生理和心理健康领域的应用正在对医学实践的许多领域产生转变性的影响，促进了医学领域的发展。从强大的临床验证程序模拟器创新信息显示旨在提高医生的水平态势感知和优化工作流程,应用这些技术都取得了巨大的进步,最终导致更好的治疗被呈现,更有利病人的结果,和更有效的利用资源。包括：培训程序（Training Applications）；治疗应用（Treatment Applications）

（5）教育（Education）

从帮助学生掌握各种职业所需的核心技能，到帮助学生学习建筑等复杂领域的抽象概念，再到儿童的体验式学习，虚拟现实和增强现实在教育领域有着不可思议的潜力。包括：技能教育（Tangible Skill Education）；理论、知识获取和概念形成（Theory, Knowledge Acquisition, and Concept Formation）；虚拟现实在教室中的应用（Virtual Reality Applications in Classrooms）；虚拟大学（Virtual University）。虚拟现实和增强现实是教育的下一个重大进步，这些技术对教育工作者和学生都有好处。教育工作者将能够以前所未有的方式吸引学生的注意力，让他们更积极地参与到课堂中来，而且还会提高学生的记忆力。

（6）信息控制和大数据可视化（Information Control and Big Data Visualization）

包括：大数据分析和人类视觉（纵向研究数据的可视化，多学科挖掘数据可视化）

13. 对于完全沉浸式显示，主要可用的技术有哪些?（What are the major available techniques for Fully Immersive Displays?）

沉浸式技术正是虚拟现实和增强现实技术发展的最新成果。借助头盔式或盔甲式显示设备，沉浸式技术能将用户的视觉和听觉封闭起来，产生虚拟的视听效果。同时，沉浸式技术借助数据手套为用户提供虚拟的触觉感官，通过语音识别器为用户提供一个可以替代真实环境的理想模型。

****（1）****自动虚拟环境(CAVES and WALLS)

用户在一个房间里，所有的墙壁和地板都是投影屏幕。用户可以戴上3D眼镜，在投影世界里自由移动，感觉就像漂浮在空中。缺点：很难在教育中广泛应用；相当昂贵的；需要特定的空间

（2）单机驱动显示（PC Console Driven）

OSVR开源VR开发工具包.发布这个显示硬件的目的是为开发人员提供一个广泛开放的、非专有的平台，用于他们自己的系统开发和测试。显示器的所有方面都被设计成可以被破解的，包括实际的设计本身，可以免费下载。

（3）基于智能手机(Smartphone Based)

（4）Hemispheres and Domes

14. 跟踪位置、方向和运动需要哪些传感器?（What sensors are necessary for Tracking Positions, Orientation, and Motion?****）

传感器用于在三维空间中跟踪参与者的位置和用户头部和手部的位置和方向。传感器告诉计算系统你在哪里寻找，这样它就知道绘制什么场景，以及在与虚拟环境和其中包含的对象交互时触发什么事件。传感器对于在虚拟空间及其内容中传达存在感或与虚拟空间的交互非常重要.

（1）光学追踪器(Optical trackers)

多个摄像机光学跟踪（Multicamera Optical Tracking）：照相机是用来监视物体运动的。工作原理是测量人或物体的运动，这些物体或物体的排列是由红外线反射器或红外线发光二极管组成的。位置和方向的变化是用三角测量法计算出来的。每台相机的镜头周围都装有一圈近红外led灯。led照亮测量区域，通过被跟踪的物体上的被动标记将光线反射回相机。照相机通常使用光学带通滤光片来消除环境光对其他波长的干扰，使标识的识别成为可靠的过程。跳跃运动控制器（Optical Sensors ）: 消费级光学传感器以及启用计算机系统的无触摸3D手势控制，声明精度为百分之一毫米，没有可见的延迟。微软的Kinect（Microsoft Kinect）：最初用于Xbox视频游戏机的手势识别和动作跟踪。最新版本的设备使用新的传感器采用了所谓的飞行时间技术。简单来说，这个传感器测量光子从激光投影仪，反射到目标表面，然后返回到图像传感器所需要的时间。

（2）信标跟踪器(Beacon trackers)

信标定位是一种将红外发射器置于固定红外发射器的相对战略位置和定位的新型定位定位方法。这个实现由两个“灯塔”基站组成，它们安装在房间相反角落的抬高位置

（3）电磁跟踪器(Electromagnetic Trackers)

20多年来，电磁跟踪系统在虚拟现实系统中一直扮演着重要的角色。****发送器:****一种固定的小立方体，包含三个相互成直角安装的线圈。****传感器:****当安装传感器的物体在三个磁场中移动时，三个线圈中产生的电流与磁场的通量成正比。****FASTRAK:****位置更新速率为120hz(除以传感器的数量)，延迟约为4毫秒

（4）惯性传感器(Inertial sensors)

惯性传感器工作原理：微机电系统(MEMS)惯性传感器的中心元件是一个证明质量，如悬臂臂或弹簧，在外部加速度的影响下从其中立位置移动。这种移动改变了证明质量和一组固定元件之间的电容。正是电容的这种变化被用来测量和量化加速度和旋转。

（5）声学传感器(Acoustic sensors)

传感器用于测量(感知)环境，并将信息转换成数字或模拟数据信号，由计算机或观察者进行解释。

15. 在人工智能数据处理中，哪种数据挖掘技术更有用?（Which technology in Data Mining could be more useful on AI Data processing?）

（1）决策树。决策树是一种方法简单而又广泛应用的分类技术。它是一种分类函数，手段是从机器学习的方面改进而来的。决策树算法的好处在于算法易于理解，但是其缺点在于每个分支的判断条件过于严格毫不含糊。这样在实际应用中可能会带来一定的麻烦。

（2）神经网络方法。神经网络来源于神经生物学和生理学中有关的神经细胞计算本质的研究工作。有很多种不同的神经网络，可以给不同的学习目的提供应用。前馈神经网络是一种常见的用于分类的算法。神经网络有很好的抗噪声的能力，并且针对位置数据也有一定的预测分类能力，有很高的分类准确度，不过训练过程一般比较长，是神经网络的一大缺点。另外，神经网络算法所得到的结果可理解性差，差不多相当于黑盒。

（3）统计学习方法。经典统计学中的重点方法内容包括回归分析，假设检验，方差分析等。而相关的统计学中的很多知识也都会在数据挖掘中被用到，再使用数据挖掘技术来解决相应问题，之前有时也会用到统计方法尝试着解决问题。甚至在数据预处理的过程中也会运用到统计方法。

（4）遗传算法。该算法时图通过计算机模仿自然选择的过程。并向他们运用到解决商业和研究问题，遗传算法是在遗传和生物净化思想之下而展开的。所以它有许多传统算法所不具备的优点。

16. 为什么深度学习在今天越来越热门?（Why Deep Learning is getting hot today?）

（1）计算能力提高（GPU、分布式）深度学习领域的进步主要靠不断增长的训练数据量以及不断增长的计算力（CPU和GPU的发展）。深度学习领域的进步主要靠不断增长的训练数据量以及不断增长的计算力。

（2）新的相对更加优化的算法（dropout、ReLU、max-pooling）例如，一个巨大的突破就是用relu函数代替了sigmoid函数。在sigmoid函数的某些区域的斜率几乎为零，所以使学习变得很慢，而relu函数的斜率一直都很大，这些新的算法大大缩短了神经网络的训练周期，让我们可以训练更大的神经网络、利用上更多的训练数据。

（3）更大的数据量（包括data augmentation），以前数据量小，很容易overfitting，现在计算机的发展给我们带来了大量数据。

17. 深度学习的局限性是什么?为什么?（What may be the limitation of Deep Learning, and why?）

****（1）****深度学习需要大量的训练数据

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip204888 （备注大数据）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

17. 深度学习的局限性是什么?为什么?（What may be the limitation of Deep Learning, and why?）****