关于大数据融合与数据仓库的一些思考

目录

1、Why Big Data is getting important?

2、What techniques are critical to Big Data analytics?

3、What factors may slow down Big Data adoptions?

4、What would be the challenges that Big Data brings to software developers?

5、What could be major differences between UNIX and Windows?

6、What is incremental backup in Data Backup and Recovery management?

7、What may be the pros and cons of SSD (Solis State Disks)?

8、What is Cognitive IoT?

9、What should be the job responsibility of an IT Architect?

10、How to implement HDFS in a large Hadoop cluster? Why?

11、What could be the Mahout Strengths for software developers?

12、What’re the key advantages of Spark?

13、What’re the key advantages of Blockchain?

14、What may be the application areas of IT services using practical virtual reality? And what could be the benefits?

15、What are the major available techniques for Fully Immersive Displays?

16、What sensors are necessary for Tracking Positions, Orientation, and Motion?

17、Which technology in Data Mining could be more useful on AI Data processing?

18、Why Deep Learning is getting hot today?

19、What may be the limitation of Deep Learning, and why?

20、Why we need Multi-Layer Neural Network?

21、Why the parallel computing is needed in this world?

22、What are the limitations of parallel computing?

23、How many methods to distribute the data over the memories?

24、How could you do on Minimizing Interaction Overheads in parallel programming?

25、What may be the pros and cons for dual level of data granularity in data warehousing?

26、Why and how we will need Cognitive Computing?


1、Why Big Data is getting important?

大数定理告诉我们一个道理,在大量重复的条件下,最后往往给我们呈现出来的是必然的统计特性。应用到大数据来说,当我们获得的数据量越大,所能挖掘到的价值和获得打见解也就越多。大数据的日渐积累让人类发现规律,预测未来不再只是想想而已。对于企业来说,大数据分析可以更好的了解客户需求,帮助企业找到新的机会并获得新的见解来有效地运行业务。

 

2、What techniques are critical to Big Data analytics?

    5个核心部分,数据采集(Flume、Logstash、Sqoop、Strom、Kafka、Zookeeper),数据存储(Hadoop、HBase、Yarn、Mesos、Redis),数据清洗(MapReduce、Oozie、Azkaban),数据挖掘(Hive、Impala、Spark),数据可视化。

并行计算、庞大的数据存储、数据分布、高速网络、高性能计算、任务和线程管理、数据挖掘与分析、数据检索、机器学习、资源管理、数据同步、任务调度等。

 

3、What factors may slow down Big Data adoptions?

  1. 缺乏将大数据分析集成到现有业务流程和工作流中的最佳实践。
  2. 在发生大量备受关注的数据泄露事件和持续不断的NSA丑闻之后,人们对安全性和数据隐私感到担忧。
  3. 传统IT供应商继续进行“大数据清洗”,导致企业购买者和从业人员之间的混乱,以及使企业购买者难以与新供应商接触的“政治”因素。
  4. 竞争激烈的大数据供应商以及竞争性技术和框架仍然是一个动荡且快速发展的市场。
  5. 缺乏旨在解决特定业务问题的完善的大数据应用程序。

 

4、What would be the challenges that Big Data brings to software developers?

  1. 数据大多是非结构化或半结构化的数据,且数据增长十分迅速,如何面对和处理这些数据是一个巨大的挑战。
  2. 大数据分析未来的任务主要不是获取越来来越多的数据,而是数据的去冗分类、去粗取精,从数据中挖掘知识。
  3. 数据敏感性分级的问题:定义哪些数据有价值哪些没有价值,哪些是用户敏感数据?
  4. 系统的扩展性是大数据分析最重要的需求,必须寻找高扩展性的数据分析技术

5、What could be major differences between UNIX and Windows?

  1. Windows是独立的内核,UNIX是Unix的内核;
  2. UNIX磁盘管理上相对Windows来说极少出现磁盘碎片,I/O管理上采取统一的文件访问机制,文件管理使用了符号连接可以随意访问;
  3. UNIX核心是编程语言操作;Windows 是鼠标视窗操作;
  4. UNIX操作要授权;Windows 不用授权,或者说是不重视权限;
  5. 性能上,UNIX平台是比较快;
  6. UNIX很多程序需要通过shell脚本来协同作战,Windows一个大软件就可以解决几乎所有的问题;

6、What is incremental backup in Data Backup and Recovery management?

    增量备份是备份的一个类型,是指在一次全备份或上一次增量备份后,以后每次的备份只需备份与前一次相比增加或者被修改的文件。

    优点:没有重复的备份数据,因此备份的数据量不大,备份所需的时间很短。

缺点:数据恢复比较麻烦的。必须具有上一次全备份和所有增量备份磁带,并且它们必须沿着从全备份到依次增量备份的时间顺序逐个反推恢复,极大地延长了恢复时间。

 

7、What may be the pros and cons of SSD (Solis State Disks)?

优点:(1)存储介质是固态半导体或其他电可擦除RAM,所以拥有比硬盘更快的访问时间,因为无论存储位置在哪里,SSD数据都可以在同一时间随机访问。(2)SSD还可以提供更好的物理弹性,以应对物理振动,冲击和极端温度波动。(3)在企业服务器加速应用程序中,它减少了所需的服务器数量。

缺点:每兆字节存储成本更高。

 

8、What is Cognitive IoT?

Cognitive IoT是解密物联网数据的一种方法,可以有效地处理越来越大的输入,同时产生有意义的输出。它是将认知计算技术与互连设备产生的数据和这些设备可以执行的操作结合使用。认知计算是通过信息分析,自然语言处理和机器学习领域的大量技术创新,能够“理解”非结构化数据,就包括语言、图像、视频等,让计算机系统能够像人的大脑一样学习、思考,进行数据分析并做出正确的决策。

9、What should be the job responsibility of an IT Architect?

架构师,是一个既需要掌控整体又需要洞悉局部瓶颈并依据具体的业务场景给出解决方案的团队领导型人物。主要职责有:

  1. 确认需求,要懂得用户需求,理解用户真正想要什么;
  2. 系统分解,一般分为纵向分解和横向分解,纵向分解是将整个系统分层,从而将整体系统分解成下一级的子系统与组件。横向分解是在系统分解成不同的逻辑层或服务后,对逻辑层进行分块,确定层与层之间的关系;
  3. 技术选型
  4. 制定技术规格说明,协调所有开发人员;

10、How to implement HDFS in a large Hadoop cluster? Why?

HDFS集群拥有一个NameNode和一些DataNode。NameNode管理文件系统的元数据,DataNode存储实际的数据。客户端通过同NameNode和DataNodes的交互访问文件系统。客户端联系NameNode以获取文件的元数据,而真正的文件I/O操作是直接和DataNode进行交互的。因为HDFS具有高容错性、适合批处理、适合大数据处理支持流式数据访问的优点。

11、What could be the Mahout Strengths for software developers?

  1. 技术社区比较活跃,给开发者提供了很好的交流平台;
  2. 扩展性和容错性较好,充分利用了MapReduce和HDFS的扩展性和容错性;
  3. 100%源代码开源;
  4. 易于使用,实现了大部分常用的数据挖掘算法,如聚类算法、分类算法和推荐算法等;

12、What’re the key advantages of Spark?

  1. 快: Spark实现了高效的DAG执行引擎,可以通过基于内存来高效地处理数据流。
  2. 容易使用:Spark支持Java、Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同应用。而且Spark支持交互式的Python和Scala的Shell。
  3. 通用性:Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询、实时流处理、机器学习和图计算
  4. 这些不同类型的处理都可以在同一应用中无缝使用。
  5. 可融合性:Spark非常方便的与其他开源产品进行融合。如Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器。Spark也可以不依赖第三方的资源管理器和调度器,使得所有人可以非常容易地部署和使用Spark。

13、What’re the key advantages of Blockchain?

  1. 高安全性:采用了采用去中心化分布式记账方式,系统中各个节点同时参与数据变动记录,每个节点都保留一份相同且完整的账本,单个节点被摧毁不会影响整个账本及记录的完整性;
  2. 高透明性:除了交易各方的私有信息被加密外,任何人都可以通过公开的接口查询区块链数据和开发相关应用;
  3. 高自治性:区块链采用基于协商一致的规范和协议,使各参与方在不需要信任任何人的环境下进行自由安全的交易;
  4. 不可篡改性:一旦信息经过验证并添加至区块链,就会永久存储起来;

14、What may be the application areas of IT services using practical virtual reality? And what could be the benefits?

应用在电子游戏、在线直播、影视娱乐、房地产、医疗健康、教育、艺术表现等。VR的好处主要表现在以下:

  1. 沉浸感让内容“活”起来,更高的维度让我们接收到的信息更多;
  2. 体感技术让人更加有身临其境的感受,VR利用大量传感器的体感技术;

15、What are the major available techniques for Fully Immersive Displays?

  1. Cave Automatic Virtual Environment (CAVE)
  2. PC-Console Driven Displays
  3. OSVR - Open-Source VR Development Kit
  4. Smartphone-Based Displays
  5. Hemispheres and Domes

16、What sensors are necessary for Tracking Positions, Orientation, and Motion?

  1. Optical Trackers (Multicamera Optical Tracking, Optical Sensors, Microsoft Kinect)
  2. Beacon Trackers
  3. Electromagnetic Trackers
  4. Inertial Sensors
  5. Acoustic Sensors

17、Which technology in Data Mining could be more useful on AI Data processing?

  1. 神经网络
  2. 深度学习;

18、Why Deep Learning is getting hot today?

深度学习解决了很多传统方法解决不了的问题,主要原因是具有以下优点,学习能力强,覆盖范围广、适应性好、可移植性好,大幅度提高用户满意度等,同时在数据量爆炸的今天,它的瓶颈,数据量太少,也被突破了。

19、What may be the limitation of Deep Learning, and why?

  1. 计算量大,便携性差,因为需要大量的数据很大量的算力,所以成本很高。并且现在很多应用还不适合在移动设备上使用。
  2. 硬件需求高,因为深度学习对算力要求很高,普通的 CPU 已经无法满足深度学习的要求,一般使用GPU。
  3. 模型设计复杂
  4. 容易出现“偏见”,因为它过度依赖于数据,可解释性不高。

20、Why we need Multi-Layer Neural Network?

  1. 更深的网络结构能有效减少网络的参数数量,避免维度诅咒,大幅提高学习效率;
  2. 更深的神经网络可以学习出更加复杂的特征;
  3. 更深的神经网络可以解决更复杂的复合问题;

21、Why the parallel computing is needed in this world?

因为在人类的世界中,往往是许多复杂的、相互关联的事件同时发生,这些事情是在同时发生的,而不是像机器一样,有些程序或者指令可以串行的发生。所以与串行计算相比,并行计算更适合于建模、模拟和理解复杂的真实世界现象。

22、What are the limitations of parallel computing?

并行计算主要适用于数据具有良好局域性的情况,相反,在一个普通的计算机上开发可以有效处理具有不良局域性的输入的软件是非常困难的。另一个限制是一些重要的算法根本无法并行化。同时调试并行性代码对人类来说也比较困难。需要平衡并行计算分解粒度与通信开销之间的关系。

23、How many methods to distribute the data over the memories?

  1. 共享内存的多处理器;
  2. 多计算机实现分布式内存;
  3. 分布式共享内存;
  4. 内存虚拟化;

24、How could you do on Minimizing Interaction Overheads in parallel programming?

  1. 最大化数据本地性,进程需要的资源都尽可能在本地。
  2. 最小化争用与热点,减少在同一时刻对于同一个存储块的争用。
  3. 使计算与交互重叠,提前进行交互操作。让计算运行到要交互的部分的时候,需要交互的数据已经交互完毕了,从而隐藏交互时间。
  4. 复制数据,对于只读数据,可以提前复制到计算节点的私有存储中。

25、What may be the pros and cons for dual level of data granularity in data warehousing?

优点:

  1. 如果数据仓库空间有限,高粒度表示数据将比用低粒度级表示效率高很多
  2. 高粒度级只需要较少的字节表示,而且只需较少的索引
  3. 数据压缩在数据仓库中很有用

不足:

  1. 高粒度的数据回答细节查询的能力较低
  2. DSS中对单个事件查询很少

26、Why and how we will need Cognitive Computing?

  1. 能处理大量的、包含更多变量的数据,尤其是文本数据;
  2. 降低了对人力的需求,缩小了人力规模;
  3. 积极地发掘我们尚未得到的、来自“认知计算”的潜在效益;
  4. 摆脱了孤岛思维;
  5. 能够将可预测的或重复性的工作自动化;
  6. 能通过开发数字助理来提高人力的工作效率。

 

  • 6
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值