大数据融合与数据仓库 -- 一些思考

最新推荐文章于 2023-04-17 17:00:21 发布

小白Rachel

最新推荐文章于 2023-04-17 17:00:21 发布

阅读量4.9k

点赞数 2

文章标签： spark

本文链接：https://blog.csdn.net/Sabrina_cc/article/details/106063252

版权

1. 为什么大数据越来越重要?（Why Big Data is getting important?）

2. 大数据分析的关键技术是什么?（What techniques are critical to Big Data analytics?）

3. 哪些因素会阻碍大数据的发展?（What factors may slow down Big Data adoptions?）

4. 大数据给软件开发者带来的挑战是什么?（What would be the challenges that Big Data brings to software developers?）

5. 什么是数据备份和恢复管理中的增量备份?（What is incremental backup in Data Backup and Recovery management?）

6. SSD (Solid State Disks)的利与弊是什么?（What may be the pros and cons of SSD (Solis State Disks)?）

7. 什么是认知物联网?（What is Cognitive IoT?）

8. IT架构师的工作职责是什么?（What should be the job responsibility of an IT Architect?）

9. 对于软件开发人员来说，Mahout的优势是什么?（What could be the Mahout Strengths for software developers?）

10. Spark的主要优势是什么?（What’re the key advantages of Spark?）

11. 区块链的主要优势是什么?（What’re the key advantages of Blockchain?）

12. 使用实际虚拟实境的应用范围为何?有什么好处呢?（What may be the application areas of IT services using practical virtual reality? And what could be the benefits?）

13. 对于完全沉浸式显示，主要可用的技术有哪些?（What are the major available techniques for Fully Immersive Displays?）

14. 跟踪位置、方向和运动需要哪些传感器?（What sensors are necessary for Tracking Positions, Orientation, and Motion?）

15. 在人工智能数据处理中，哪种数据挖掘技术更有用?（Which technology in Data Mining could be more useful on AI Data processing?）

17. 深度学习的局限性是什么?为什么?（What may be the limitation of Deep Learning, and why?）

18. 为什么我们需要多层神经网络?（Why we need Multi-Layer Neural Network）

19. 为什么这个世界需要并行计算?（Why the parallel computing is needed in this world?）

20. 并行计算的局限性是什么?（What are the limitations of parallel computing?）

21. 为什么以及如何需要认知计算?（Why and how we will need Cognitive Computing?）

1. 为什么大数据越来越重要?（Why Big Data is getting important?）

大数据，是数据的集合。“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低（Value）”就是“大数据”的显著特征，或者说，只有具备这些特点的数据，才是大数据。为什么大数据会越来越重要呢？

（1）大数据是企业核心竞争力，也是公司的软实力。在戴尔开展的项调查中显示，采用大数据、云计算以及移动战略的企业中，优势更加明显。在如今的商业中，大数据显现的惊人优势并不亚于石油或煤炭带来的利益。大数据系统的出现使得这些公司能够将尚未开拓的数据投入使用，并从中提取有意义的信息。过去没有被认可或认为毫无用处的数据突然成为公司的财富，通过大数据分析，这些公司可以加快流程，从而降低运营成本。

（2）以用户为、用户行为数据是营销关键。客户动向是不断变化的，因此营销人员的策略也应该做出相应调整。通过整合过去和实时数据来评估客户的品味和喜好，这样可以使公司采取更快捷的应对措施。比如通过跟踪客户的购买趋势，并为营销人员提供他们即时需要的所有相关信息，从而来为客户服务。

（3）技术驱动了数据创新。大数据时代，同样也是技术不断革新的时代，大数据价值的实现离不开各种核心的技术，从数据采集到数据分析，从算法模型到数据呈现，都离不开大数据技术的支持。如果要判断一家大数据公司的实力，那么最关键的就是去考察它的大数据技术能力，是否拥有最顶尖的技术和人才。而这也是大数据公司最核心的优势。

2. 大数据分析的关键技术是什么?（What techniques are critical to Big Data analytics?）

大数据技术栈的底层是基础设施，涵盖计算资源、内存与存储和网络互联。在此之上是数据存储和管理，包括文件系统、数据库和类似YARN的资源管理系统。然后是计算处理层，如hadoop、MapReduce和Spark，以及在此之上的各种不同计算范式。数据分析和可视化基于计算处理层。分析包括简单的查询分析、流分析以及更复杂的分析(如机器学习、图计算等)。查询分析多基于表结构和关系函数，流分析基于数据、事件流以及简单的统计分析。

大数据的基本处理流程与传统数据处理流程并无太大差异，主要区别在于：由于大数据要处理大量、非结构化的数据，所以在各处理环节中都可以采用并行处理。目前，Hadoop、MapReduce和Spark等分布式处理方式已经成为大数据处理各环节的通用处理方法。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。Hadoop 是一个数据管理系统，作为数据分析的核心，汇集了结构化和非结构化的数据，这些数据分布在传统的企业数据栈的每一层。Hadoop也是一个大规模并行处理框架，拥有超级计算能力，定位于推动企业级应用的执行。

Spark 是开源的类Hadoop MapReduce的通用的数据分析集群计算框架，用于构建大规模、低延时的数据分析应用，建立于HDFS之上。Spark提供强大的内存计算引擎，几乎涵盖了所有典型的大数据计算模式，包括迭代计算、批处理计算、内存计算、流式计算(Spark Streaming)、数据查询分析计算(Shark)以及图计算(GraphX)。Spark 使用Scala 作为应用框架，采用基于内存的分布式数据集，优化了迭代式的工作负载以及交互式查询。

3. 哪些因素会阻碍大数据的发展?（What factors may slow down Big Data adoptions?）

利用互联网购物的营销数据来追踪和勾画消费行为并以此为据促销是大数据应用的成功典型案例。

（1）多源数据的融合就成为大数据分析中的瓶颈。在大数据时代，数据源是多样的、自然形成的、海量的数据常常是半结构或无结构的。这就要求数据科学家和分析师驾驭多样、多源的数据，将它们梳理后进行挖掘和分析。目前已有的数据处理新工具使数据科学家从数据准备的繁琐工作中解放了出来，但如何根据每个数据分析项目量体定制，融合多源数据以形成有效的分析数据集仍是数据科学家必须面对的一个更具挑战性的任务。

（2）业务部门没有清晰的大数据需求，且数据可用性低，数据质量差。很多企业业务部门不了解大数据，也不了解大数据的应用场景和价值，因此难以提出大数据的准确需求。大数据的意义不仅仅是要收集规模庞大的数据信息，还有对收集到的数据进行很好的预处理处理，才有可能让数据分析和数据挖掘人员从可用性高的大数据中提取有价值的信息。然而很多中型以及大型企业在大数据的预处理阶段很不重视，导致数据处理很不规范。导致企业的数据的可用性差，数据质量差，数据不准确。

（3）数据开放，数据安全与隐私的权衡。由于政府、企业和行业信息化系统建设往往缺少统一规划，系统之间缺乏统一的标准，形成了众多“信息孤岛”。另外我国数据资源开放和共享的一个重要因素是政策法规不完善，大数据挖掘缺乏相应的立法。无法既保证共享又防止滥用。因此，开放与隐私如何平衡，也是大数据开放过程中面临的最大难题。

4. 大数据给软件开发者带来的挑战是什么?（What would be the challenges that Big Data brings to software developers?）

（1）企业内部数据孤岛严重，业务部门没有清晰的大数据需求。从根本上影响了企业在大数据方向的发展，也阻碍了企业积累和挖掘自身的数据资产。在很多企业中尤其是大型的企业，数据常常散落在不同部门，而且这些数据存在不同的数据仓库中，这导致企业内部自己的数据都没法打通。如果不打通这些数据，大数据的价值则非常难挖掘。因此，如何将不同部门的数据打通，并且实现技术和工具共享需要大数据从业者和专家一起，推动和分享大数据应用场景。

（2）传统的数据库部署不能处理TB级别的数据，快速增长的数据量超越了传统数据库的管理能力。因此，如何构建分布式的数据仓库，并可以方便扩展大量的服务器成为很多传统企业的挑战;传统企业的数据库，对数据处理时间要求不高，这些数据的统计结果往往滞后一天或两天才能统计出来。但大数据需要实时处理数据，进行分钟级甚至是秒级计算。传统的数据库架构师缺乏实时数据处理的能力;

（3）一般大多企业采用传统的数据库技术，在设计的开始就没有考虑数据类别的多样性，尤其是对结构化数据、半结构化和非结构化数据的兼容;海量的数据需要很好的网络架构，需要强大的数据中心来支撑，数据中心的运维工作也将成为挑战。如何在保证数据稳定、支持高并发的同时，减少服务器的低负载情况，成为海量数据中心运维的一个重点工作。

5. 什么是数据备份和恢复管理中的增量备份?（What is incremental backup in Data Backup and Recovery management?）

增量备份的定义：备份自上一次备份（包含完全备份、差异备份、增量备份）之后有变化的数据。

增量备份：在第一次完整备份之后，第二次开始每次都将添加了存档属性的文件进行备份，并且在备份之后再把这些存档属性清除。为什么要清除存档属性呢？这就是为了下一次备份的时候判断是否有文件变化，因为用户在每次备份以后修改这些被清除存档属性的文件，存档属性就会自动加上，相当于用户告诉系统，这些文件有变化，你下一次就备份这些文件，其他没有存档属性的就不需要备份，这就是增量备份的工作机制。

增量备份的特点：因每次仅备份自上一次备份（注意是上一次，不是第一次）以来有变化的文件，所以备份体积小，备份速度快，但是恢复的时候，需要按备份时间顺序，逐个备份版本进行恢复，恢复时间长。

差异备份的定义：备份自上一次完全备份之后有变化的数据。

差异备份：在第一次完整备份之后，第二次开始每次都将所有文件与第一次完整备份的文件做比较，把自第一次完整备份以来所有修改过的文件进行备份，且以后每次备份都是和第一次完整备份进行比较（注意是第一次，不是上一次），备份自第一次完整备份以来所有的修改过的文件。因此，差异备份在备份完毕之后不需要清除文件的存档属性，因为这些文件和下一次备份没有什么关系，它仅仅和第一次完整备份的数据进行比较（第一次完整备份之后是清除存档属性的）。　　

差异备份特点：占用空间比增量备份大，比完整备份小，恢复时仅需要恢复第一个完整版本和最后一次的差异版本，恢复速度介于完整备份和增量备份之间。

增量备份、差异备份和完全备份的区别。

完全备份：备份全部选中的文件夹，并不依赖文件的存档属性来确定备份那些文件。（在备份过程中，任何现有的标记都被清除，每个文件都被标记为已备份，换言之，清除存档属性）。 差异备份：差异备份是针对完全备份：备份上一次的完全备份后发生变化的所有文件。（差异备份过程中，只备份有标记的那些选中的文件和文件夹。它不清除标记，既：备份后不标记为已备份文件，换言之，不清除存档属性）。 增量备份：增量备份是针对于上一次备份（无论是哪种备份）：备份上一次备份后，所有发生变化的文件。（增量备份过程中，只备份有标记的选中的文件和文件夹，它清除标记，既：备份后标记文件，换言之，清除存档属性。）

简单的讲，完整备份就是不管三七二十一，每次都把指定的备份目录完整的复制一遍，不管目录下的文件有没有变化；增量备份就是每次将之前（第一次、第二次、直到前一次）做过备份之后有变化的文件进行备份；差异备份就是每次都将第一次完整备份以来有变化的文件进行备份。

6. SSD (Solid State Disks)的利与弊是什么?（What may be the pros and cons of SSD (Solis State Disks)?）

固态硬盘（Solid State Drives），简称固盘，是用固态电子存储芯片阵列而制成的硬盘。SSD硬盘之所以需要特别优化系统配置，主要是由其特性决定：

向SSD硬盘写入数据时，不能像写入普通硬盘那样直接覆盖，而是要先擦除、再写入。如果想保留块中的其它数据，需要在擦除前要先读出该块的数据，并在修改后写回。所以每一次写操作实际写到硬盘上的数据很可能原来计划比要写的数据多，这是SSD的读取比写入快得多的原因之一。SSD的每一个存储单元被擦除、写入的次数是有限的。虽然每个存储单元的寿命有限，但每个物理存储单元对应的逻辑地址没必要是一成不变的。通过将要写入的数据动态地映射到不同的物理存储单元，SSD的寿命可以得到明显的提升。

优势：
（1）速度快。速度分为连续传输和随机读写。前者比机械盘快3－5倍，后者比机械盘快几十上百倍。所以，启动系统、运行软件，进入游戏，都比机械盘快得多。
（2）节能。不怕震动，甚至不怕摔。重量轻。
（3）寿命长。固态硬盘如果不是特意大量写入，一般用二十年是毫无问题的。
弊端：
（1）价格太贵。128G的固态盘比1T的机械盘还贵。
（2）兼容性问题比较多。固态硬盘和老主板的兼容性问题较多。

（3）操作系统有限制。必须win7以上的操作系统，必须开ahci和4K对齐。
（4）数据安全性差一点。固态硬盘的数据不如机械硬盘安装，第一怕突然断电，第二怕高温。

7. 什么是认知物联网?（What is Cognitive IoT?）

物联网是通过各种传感技术（RFID、传感器、GPS、摄像机、激光扫描等）、各种通讯手段（有线、无线、长距），将任何物体与互联网相连接，采集其声、光、热、电、力学、化学、生物、位置等各种需要的信息，与互联网结合形成的一个巨大网络。其目的是实现物与物、物与人，所有的物品与网络的连接，进而实现“管理、控制、营运”一体化的一种网络。

物联网三个重要特征：1.全面感知，利用RFID，传感器，二维码等随时随地获取物体的信息，比如装载在高层建筑、桥梁上的监测设备；人体携带的心跳、血压、脉搏等监测医疗设备；商场货架上的电子标签；2.可靠传递，通过各种电信网络与互联网的融合，将物体的信息实时准确地传递出去；3.智能处理，利用云计算，模糊识别等各种智能计算技术，对海量的数据和信息进行分析和处理，对物体实施智能化的控制。

认知物联网是将认知计算技术与互连设备产生的数据和这些设备可以执行的操作结合使用。认知涉及三个关键要素：理解、推理、学习。认知物联网技术将使企业领导者有可能更深入地了解世界上正在发生的事情。通过将情报注入系统和流程中，企业将不仅能够更高效地做事，而且还能提高客户满意度，发现新的商机以及预测风险和威胁，从而更好地应对。

第一代物联网技术为我们提供了众多信息，这些信息可能对提高运营效率产生重大影响。下一代技术创建了共享信息的设备的庞大社区，这些信息又可以在更大的范围内进行解释，并由使用认知系统的人们进行管理。在认知物联网时代，没有机器是孤岛。我们在物联网产品组合中添加了几种认知技术-机器学习，自然语言处理，视频和图像分析以及文本分析。

8. IT架构师的工作职责是什么?（What should be the job responsibility of an IT Architect?）

系统架构师是一个既需要掌控整体又需要洞悉局部瓶颈并依据具体的业务场景给出解决方案的团队领导型人物。架构师的一个重要职责是，确保团队有共同的技术愿景，以帮助我们向客户交付他们想要的系统。

确认和评估系统需求，给出开发规范，搭建系统实现的核心构架，并澄清技术细节、扫清主要难点的技术人员。主要着眼于系统的"技术实现"。因此他/她应该是特定的开发平台、语言、工具的大师，对常见应用场景能马上给出最恰当的解决方案，同时要对所属的开发团队有足够的了解，能够评估自己的团队实现特定的功能需求需要的代价。系统架构师负责设计系统整体架构，从需求到设计的每个细节都要考虑到，把握整个项目，使设计的项目尽量效率高，开发容易，维护方便，升级简单等。

软件架构师在整个软件开发过程中都起着重要的作用，并随着开发进程的推进而其职责或关注点不断地变化，在需求阶段，软件架构师主要负责理解和管理非功能性系统需求，比如软件的可维护性、性能、复用性、可靠性、有效性和可测试性等等，此外，架构师还要经常审查客户及市场人员所提出的需求，确认开发团队所提出的设计;在需求越来越明确后，架构师的关注点开始转移到组织开发团队成员和开发过程定义上;在软件设计阶段，架构师负责对整个软件体系结构、关键构件、接口和开发政策的设计;在编码阶段，架构师则成为详细设计者和代码编写者的顾问，并且经常性地要举行一些技术研讨会、技术培训班等;随着软件开始测试、集成和交付，集成和测试支持将成为软件架构师的工作重点;在软件维护开始时，软件架构师就开始为下一版本的产品是否应该增加新的功能模块进行决策。

9. 对于软件开发人员来说，Mahout的优势是什么?（What could be the Mahout Strengths for software developers?）

Apache Mahout是Apache Software Foundation （ASF）旗下的一个开源项目，提供了一些经典的机器学习的算法，皆在帮助开发人员更加方便快捷地创建智能应用程序。目前已经有了三个公共发型版本，通过ApacheMahout库，Mahout可以有效地扩展到云中。Mahout包括许多实现，包括聚类、分类、推荐引擎、频繁子项挖掘。

Apache Mahout的主要目标是建立可伸缩的机器学习算法。这种可伸缩性是针对大规模的数据集而言的。Apache Mahout的算法运行在ApacheHadoop平台下，它通过Mapreduce模式实现。但是，Apache Mahout并非严格要求算法的实现基于Hadoop平台，单个节点或非Hadoop平台也可以。Apache Mahout核心库的非分布式算法也具有良好的性能。

Mahout 是一个机器学习 Java 类库的集合，用于完成各种各样的任务，如分类、评价性的聚类和模式挖掘等。Mahout开源项目就是一个Hadoop云平台的算法库，已经实现了多种经典算法，并一直在扩充中，其目标就是致力于创建一个可扩容的云平台算法库。

在Hadoop云平台下编程不仅要求用户对Hadoop云平台框架比较熟悉，还要对Hadoop云平台下底层数据流、Map和Reduce原理非常熟悉，这是基本的编程要求。此外，用户要编写某一个算法还需要对该算法的原理比较熟悉，即需要对算法原理理解透彻。总体来看，编写云平台下的算法程序是属于高难度的开发工作了。但是，如果使用Mahout，情况就会有很大的不同，用户再也不用自己编写复杂的算法，不需要掌握太高深的云平台的框架和数据流程的理论知识。用户所需要了解的只是算法的大概原理、算法实际应用环境和如何调用Mahout相关算法的程序接口。当然，在具体的项目中，用户还应该根据实际需求在Mahout源代码基础上进行二次开发以满足具体的实际应用情况。

10. Spark的主要优势是什么?（What’re the key advantages of Spark?）

（1）快:与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上；而基于磁盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎，可以通过基于内存来高效地处理数据流。

（2）容易使用:Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户可以快速构建不同应用。而且Spark支持交互式的Python和Scala的Shell，这意味着可以非常方便的在这些Shell中使用Spark集群来验证解决问题的方法，而不是像以前一样，需要打包、上传集群、验证等。这对于原型开发非常重要。

（3）通用性：Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（通用Spark SQL）、实时流处理（通过Spark Streaming）、机器学习（通过Spark MLlib）和图计算（通过Spark GraphX）。这些不同类型的处理都可以在同一应用中无缝使用。

（4）可融合性：Spark非常方便的与其他开源产品进行融合。比如，Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，并且可以处理所有Hadoop支持的数据，包括HDFS、HBase和Cassanda等。

11. 区块链的主要优势是什么?（What’re the key advantages of Blockchain?）

区块链是一种共享的分布式数据库技术，其优势主要突出表现在分布式去中心化、无须信任系统和不可篡改和加密安全性三个方面。”
（1）分布式去中心化
　　由于区块链中每个节点和矿工都必须遵循同一记账交易规则，而这个规则是基于密码算法而不是信用，同时每笔交易需要网络内其他用户的批准，所以去中心化的交易系统不需要一套第三方中介结构或信任机构背书。
而在目前，不管是传统的交易系统，还是第三方交易系统，都是基于中央账簿的体系中，中央账簿就扮演着信息保管员的角色，每笔交易需要第三方中介或者信任机构背书，这属于中心化的交易网络。
（2）无须信任系统
　　区块链网络中，通过算法的自我约束，任何恶意欺骗系统的行为都会遭到其他节点的排斥和抑制，因此，区块链系统不依赖中央权威机构支撑和信用背书。传统的信用背书网络系统中，参与人需要对于中央机构足够信任，随着参与网络人数增加，系统的安全性下降。和传统情况相反，区块链网络中，参与人不需要对任何人信任，但随着参与节点增加，系统的安全性反而增加，同时数据内容可以做到完全公开。

（3）不可篡改和加密安全性
　　区块链采取单向哈希算法，同时每个新产生的区块严格按照时间线形顺序推进，时间的不可逆性导致任何试图入侵篡改区块链内数据信息的行为都很容易被追溯，导致被其他节点的排斥，从而可以限制相关不法行为。

12. 使用实际虚拟实境的应用范围为何?有什么好处呢?（What may be the application areas of IT services using practical virtual reality? And what could be the benefits?）

（1）游戏和娱乐（Gaming and Entertainment）

虚拟现实和增强现实技术即将改变艺术、游戏和娱乐行业，包括：虚拟现实和艺术（Virtual Reality and the Arts）；游戏（Gaming）；基于位置的娱乐（Location-Based Entertainment）；沉浸式视频/电影虚拟现实（Immersive Video/Cinematic Virtual Reality）。可以创作出在短短几年前还无法想象的作品。规模不再是问题。单用户第一视角游戏令人印象深刻的。增加了用户体验感。混合现实游戏(top)免费漫游游戏只回复通过头戴显示器提供的虚拟环境的图形表示，用户可以在定义的开放空间内自由移动。

（2）建筑（Architecture and Construction）

从协助建筑师炼油设计概念,使总承包商能够更有效地管理大型项目涉及团队来自不同学科,在现有房地产的销售,协助沉浸式虚拟现实系统转型对建筑的影响,工程和建筑行业。包括：人工空间；建筑设计；施工管理；房地产销售申请；建筑声学。

考虑的结构或空间越复杂，就越需要将这些心理图像外化，以实现更详细的视觉检查和确认，并将这些设计思想传达给客户。沉浸式的建筑演练已经越来越多地依赖于建筑师和工程师、培训中的学生、房地产经纪人和其他人来有效地外化和体验复杂的、可居住的3D结构。越来越多的建筑设计公司现在正在使用复杂的声学建模软件工具来预测空间或结构的声学性能，从而使客户能够做出最佳的设计决策

（3）科学与技术（Science and Engineering）

交互式沉浸式显示系统的使用在许多工程领域得到了广泛的应用。从设计过程的开始，通过促进分布在全球多个地点的多学科团队之间的决策制定，这些技术对设计质量、成本控制和工作流效率产生了深远的影响。包括：模仿和创新（Simulate and Innovate）；造船和海洋工程（Naval Architecture and marine Engineering）；汽车工程（Automotive Engineering）；航空航天工程（Aerospace Engineering）；核工程与制造（Nuclear Engineering and Manufacturing）。

虚拟现实和增强现实正在成为重要的工具，产生更高质量的可交付成果，减少设计缺陷，并增加成本和工时方面的节省。减少或消除对物理原型的需求，早期的错误进行识别。

（4）健康与医疗（Health and Medicine）

虚拟现实和增强现实在生理和心理健康领域的应用正在对医学实践的许多领域产生转变性的影响，促进了医学领域的发展。从强大的临床验证程序模拟器创新信息显示旨在提高医生的水平态势感知和优化工作流程,应用这些技术都取得了巨大的进步,最终导致更好的治疗被呈现,更有利病人的结果,和更有效的利用资源。包括：培训程序（Training Applications）；治疗应用（Treatment Applications）

（5）教育（Education）

从帮助学生掌握各种职业所需的核心技能，到帮助学生学习建筑等复杂领域的抽象概念，再到儿童的体验式学习，虚拟现实和增强现实在教育领域有着不可思议的潜力。包括：技能教育（Tangible Skill Education）；理论、知识获取和概念形成（Theory, Knowledge Acquisition, and Concept Formation）；虚拟现实在教室中的应用（Virtual Reality Applications in Classrooms）；虚拟大学（Virtual University）。虚拟现实和增强现实是教育的下一个重大进步，这些技术对教育工作者和学生都有好处。教育工作者将能够以前所未有的方式吸引学生的注意力，让他们更积极地参与到课堂中来，而且还会提高学生的记忆力。

（6）信息控制和大数据可视化（Information Control and Big Data Visualization）

包括：大数据分析和人类视觉（纵向研究数据的可视化，多学科挖掘数据可视化）

13. 对于完全沉浸式显示，主要可用的技术有哪些?（What are the major available techniques for Fully Immersive Displays?）

沉浸式技术正是虚拟现实和增强现实技术发展的最新成果。借助头盔式或盔甲式显示设备，沉浸式技术能将用户的视觉和听觉封闭起来，产生虚拟的视听效果。同时，沉浸式技术借助数据手套为用户提供虚拟的触觉感官，通过语音识别器为用户提供一个可以替代真实环境的理想模型。

（1）自动虚拟环境(CAVES and WALLS)

用户在一个房间里，所有的墙壁和地板都是投影屏幕。用户可以戴上3D眼镜，在投影世界里自由移动，感觉就像漂浮在空中。缺点：很难在教育中广泛应用；相当昂贵的；需要特定的空间

（2）单机驱动显示（PC Console Driven）

OSVR开源VR开发工具包.发布这个显示硬件的目的是为开发人员提供一个广泛开放的、非专有的平台，用于他们自己的系统开发和测试。显示器的所有方面都被设计成可以被破解的，包括实际的设计本身，可以免费下载。

（3）基于智能手机(Smartphone Based)

（4）Hemispheres and Domes

14. 跟踪位置、方向和运动需要哪些传感器?（What sensors are necessary for Tracking Positions, Orientation, and Motion?）

传感器用于在三维空间中跟踪参与者的位置和用户头部和手部的位置和方向。传感器告诉计算系统你在哪里寻找，这样它就知道绘制什么场景，以及在与虚拟环境和其中包含的对象交互时触发什么事件。传感器对于在虚拟空间及其内容中传达存在感或与虚拟空间的交互非常重要.

（1）光学追踪器(Optical trackers)

多个摄像机光学跟踪（Multicamera Optical Tracking）：照相机是用来监视物体运动的。工作原理是测量人或物体的运动，这些物体或物体的排列是由红外线反射器或红外线发光二极管组成的。位置和方向的变化是用三角测量法计算出来的。每台相机的镜头周围都装有一圈近红外led灯。led照亮测量区域，通过被跟踪的物体上的被动标记将光线反射回相机。照相机通常使用光学带通滤光片来消除环境光对其他波长的干扰，使标识的识别成为可靠的过程。跳跃运动控制器（Optical Sensors ）: 消费级光学传感器以及启用计算机系统的无触摸3D手势控制，声明精度为百分之一毫米，没有可见的延迟。微软的Kinect（Microsoft Kinect）：最初用于Xbox视频游戏机的手势识别和动作跟踪。最新版本的设备使用新的传感器采用了所谓的飞行时间技术。简单来说，这个传感器测量光子从激光投影仪，反射到目标表面，然后返回到图像传感器所需要的时间。

（2）信标跟踪器(Beacon trackers)

信标定位是一种将红外发射器置于固定红外发射器的相对战略位置和定位的新型定位定位方法。这个实现由两个“灯塔”基站组成，它们安装在房间相反角落的抬高位置

（3）电磁跟踪器(Electromagnetic Trackers)

20多年来，电磁跟踪系统在虚拟现实系统中一直扮演着重要的角色。发送器:一种固定的小立方体，包含三个相互成直角安装的线圈。传感器:当安装传感器的物体在三个磁场中移动时，三个线圈中产生的电流与磁场的通量成正比。FASTRAK:位置更新速率为120hz(除以传感器的数量)，延迟约为4毫秒

（4）惯性传感器(Inertial sensors)

惯性传感器工作原理：微机电系统(MEMS)惯性传感器的中心元件是一个证明质量，如悬臂臂或弹簧，在外部加速度的影响下从其中立位置移动。这种移动改变了证明质量和一组固定元件之间的电容。正是电容的这种变化被用来测量和量化加速度和旋转。

（5）声学传感器(Acoustic sensors)

传感器用于测量(感知)环境，并将信息转换成数字或模拟数据信号，由计算机或观察者进行解释。

15. 在人工智能数据处理中，哪种数据挖掘技术更有用?（Which technology in Data Mining could be more useful on AI Data processing?）

（1）决策树。决策树是一种方法简单而又广泛应用的分类技术。它是一种分类函数，手段是从机器学习的方面改进而来的。决策树算法的好处在于算法易于理解，但是其缺点在于每个分支的判断条件过于严格毫不含糊。这样在实际应用中可能会带来一定的麻烦。

（2）神经网络方法。神经网络来源于神经生物学和生理学中有关的神经细胞计算本质的研究工作。有很多种不同的神经网络，可以给不同的学习目的提供应用。前馈神经网络是一种常见的用于分类的算法。神经网络有很好的抗噪声的能力，并且针对位置数据也有一定的预测分类能力，有很高的分类准确度，不过训练过程一般比较长，是神经网络的一大缺点。另外，神经网络算法所得到的结果可理解性差，差不多相当于黑盒。

（3）统计学习方法。经典统计学中的重点方法内容包括回归分析，假设检验，方差分析等。而相关的统计学中的很多知识也都会在数据挖掘中被用到，再使用数据挖掘技术来解决相应问题，之前有时也会用到统计方法尝试着解决问题。甚至在数据预处理的过程中也会运用到统计方法。

（4）遗传算法。该算法时图通过计算机模仿自然选择的过程。并向他们运用到解决商业和研究问题，遗传算法是在遗传和生物净化思想之下而展开的。所以它有许多传统算法所不具备的优点。

16. 为什么深度学习在今天越来越热门?（Why Deep Learning is getting hot today?）

（1）计算能力提高（GPU、分布式）深度学习领域的进步主要靠不断增长的训练数据量以及不断增长的计算力（CPU和GPU的发展）。深度学习领域的进步主要靠不断增长的训练数据量以及不断增长的计算力。

（2）新的相对更加优化的算法（dropout、ReLU、max-pooling）例如，一个巨大的突破就是用relu函数代替了sigmoid函数。在sigmoid函数的某些区域的斜率几乎为零，所以使学习变得很慢，而relu函数的斜率一直都很大，这些新的算法大大缩短了神经网络的训练周期，让我们可以训练更大的神经网络、利用上更多的训练数据。

（3）更大的数据量（包括data augmentation），以前数据量小，很容易overfitting，现在计算机的发展给我们带来了大量数据。

17. 深度学习的局限性是什么?为什么?（What may be the limitation of Deep Learning, and why?）

（1）深度学习需要大量的训练数据

深度学习的性能，能否提升取决于数据集的大小，因此深度学习通常需要大量的数据作为支撑，如果不能进行大量有效的训练，往往会导致过拟合(过拟合是指深度学习时选择的模型所包含的参数过多，以至于出现这一模型对已知数据预测得很好，但对未知数据预测得很差的现象)现象的产生。

（2）无法判断数据的正确性

深度学习可以在不理解数据的情况下模仿数据中的内容，它不会否定任何数据，不会发现数据中隐藏的偏见，这就可能会造成最终生成结果的不客观。

（3）深度网络对图像的改变过于敏感

在人类看来，对图片进行局部调整可能并会不影响对图的判断。然而，深度网络不仅对标准对抗攻击敏感，而且对环境的变化也会敏感。下图显示了在一张丛林猴子的照片中PS上一把吉他的效果。这导致深度网络将猴子误认为人类，同时将吉他误认为鸟，大概是因为它认为人类比猴子更可能携带吉他，而鸟类比吉他更可能出现在附近的丛林中。

（4）深度学习不能解释因果关系

深度学习能够发现事件之间的关联性，建立事件之间的映射关系，但是深度学习不能解释因果关系。简单来说，深度学习学到的是输入与输出特征间的复杂关系，而非因果性的表征。深度学习可以把人类当作整体，并学习到身高与词汇量的相关性，但并不能了解到长大与发展间的关系。

18. 为什么我们需要多层神经网络?（Why we need Multi-Layer Neural Network）

神经网络是一组连接的输入/输出单元，其中每个连接都有一个与之相关的权值。由于单元之间的联系，神经网络学习也被称为连接主义学习。这是一个监督，归纳或分类学习的情况。神经网络通过调整权值进行学习，从而能够正确地对训练数据进行分类，从而在测试阶段后对未知数据进行分类。神经网络需要较长的训练时间。神经网络对噪声和不完整数据具有较高的容忍度。

多层神经网络的优势体现在：训练子集；模块化神经网络；神经网络进化。多层前馈神经网络的反向传播算法具有子集训练、收敛速度快、模块化神经网络、神经网络进化等特点。

如果你在建一个人脸识别或是人脸检测系统，深度神经网络所做的事就是，当你输入一张脸部的照片，然后你可以把深度神经网络的第一层，当成一个特征探测器或者边缘探测器。可以直觉上把这种神经网络的前几层当作探测简单的函数，比如边缘，之后把它们跟后几层结合在一起，那么总体上就能学习更多复杂的函数。比如说，可能有一个神经元会去找眼睛的部分，另外还有别的在找鼻子的部分，然后把这许多的边缘结合在一起，就可以开始检测人脸的不同部分。最后再把这些部分放在一起，比如鼻子眼睛下巴，就可以识别或是探测不同的人脸。

深度神经网络的这许多隐藏层中，较早的前几层能学习一些低层次的简单特征，等到后几层，就能把简单的特征结合起来，去探测更加复杂的东西。

更深的网络结构能有效减少网络的参数数量，避免维度诅咒（curse of dimensionality）大幅提高学习效率

19. 为什么这个世界需要并行计算?（Why the parallel computing is needed in this world?）

在自然界中，许多复杂的、相互关联的事件同时发生，但都是在一个时间序列内发生的。与串行计算相比，并行计算更适合于建模、模拟和理解复杂的真实世界现象。历史上，并行计算一直被认为是“计算的高端”，并被用于建模科学和工程的许多领域的难题。今天，商业应用为开发更快的计算机提供了同等或更大的推动力。这些应用程序需要以复杂的方式处理大量数据。有些问题需要大量的计算。

节省时间和/或金钱: 从理论上讲，在一项任务上投入更多的资源将缩短完成它的时间，并可能节省成本。并行计算机可以由廉价的、普通的部件制造出来。

提供并发性: 单个计算资源一次只能做一件事。多个计算资源可以同时做许多事情。例如，Access Grid提供了一个全球协作网络，来自世界各地的人们可以在这里“虚拟地”见面并进行工作。

使用非本地资源: 在广域网上使用计算资源，甚至在本地计算资源稀缺的情况下使用Internet。

串行计算的限制: 物理和实际原因对简单地构建更快的串行计算机构成了重大的限制:传输速度——串行计算机的速度直接取决于数据在硬件中的传输速度。提高速度就必须增加处理单元的接近性。限制小型化-处理器技术允许越来越多的晶体管被放置在一个芯片上。然而，即使是分子或原子水平的成分，也会达到小成分的极限。经济上的限制——使单个处理器更快的成本越来越高。使用大量中等速度的普通处理器来实现相同(或更好)的性能成本更低。当前的计算机架构越来越依赖于硬件级并行来提高性能。

解决更大的问题: 许多问题是如此庞大和/或复杂，在一台计算机上解决它们是不切实际的或不可能的，特别是考虑到有限的计算机内存。在过去的20多年中，越来越快的网络、分布式系统和多处理器计算机体系结构(甚至在桌面级)所显示的趋势清楚地表明并行是计算的未来。在同一时期，超级计算机的性能提高了1000倍以上，目前还看不到结束的迹象。

20. 并行计算的局限性是什么?（What are the limitations of parallel computing?）

通过使分解的粒度更细，并行时间似乎可以变得任意小。

计算的粒度有一个固有的界限。例如，在稠密矩阵与向量相乘的情况下，并发任务不能超过(n2)个。

并发任务可能还必须与其他任务交换数据。这会导致通信开销。分解的粒度和相关的开销之间的权衡通常决定性能界限。

Amdahl定律和Gustafson定律都假定程序的顺序部分的运行时间与处理器的数量无关。Amdahl定律假设整个问题的大小是固定的，因此并行处理的总工作量也与处理器的数量无关。Gustafson定律假设并行工作的总量随处理器数量线性变化。

21. 为什么以及如何需要认知计算?（Why and how we will need Cognitive Computing?）

认知计算是在计算机模型中模拟人类的思维过程。认知计算包括使用数据挖掘、模式识别和自然语言处理来模仿人类大脑工作方式的自我学习系统。认知计算(CC)是IBM的一个流行词和计算概念，其目的是使人类类型的问题具有可计算性。 “系统可以大规模地学习，有目的地推理，与人类自然地互动。”认知计算是大数据的产物，数据不断增长，越来越多非结构化文本，计算速度也有要求。这些系统从根本上改变了人类和系统的交互方式，并通过利用人类提供专家帮助和理解的能力，极大地扩展了人类的能力。

这些系统通过开发深入的领域见解并以及时、自然和可用的方式将这些信息提供给人们，从而提供专家帮助。能够消耗大量结构化和非结构化信息，能够协调模糊甚至自相矛盾的数据，并且能够学习。认知系统做出的决定是基于证据的，并基于新的信息、结果和行动不断发展。这些系统做出的决定也没有偏见;然而，人类要完全相信自己的决定，需要一定的标准。目前，认知计算系统更多的是作为顾问，为最终做出最终决定的人类用户提供一系列选择。

小白Rachel

关注

2
点赞
踩
16

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据融合与数据仓库 -- 一些思考

1. 为什么大数据越来越重要?（Why Big Data is getting important?）2. 大数据分析的关键技术是什么?（What techniques are critical to Big Data analytics?）3. 哪些因素会阻碍大数据的发展?（What factors may slow down Big Data adoptions?）4. 大数据给软件开发者带来的挑战是什么?（What would be the challengesthat Big Data.
复制链接

扫一扫