信管1182林美凤大数据第一次作业

大数据第一次作业

1.什么是云计算?
答:云计算是通过互联网按需提供IT资源,并且采用使用量付费的定价方式。您可以根据需要从诸如Amazon Web Services(AWS)之类的云提供商那里获得技术服务,例如计算能力,存储和数据库,而无需购买,拥有和维护物理数据中心及服务器。
用通俗的话解释就是当需要的时候,扭开水龙头,水就来了,我只需要操心交水费就是了!当你需要用一个软件时,你不用跑去电脑城,打开应用商店,它就下载下来了,你只需要交钱就是了;当你想看报纸的时候,你不用跑去报刊亭,只要打开头条新闻,新闻唾手可得;当你想看书的时候,你不用跑去书城,只需要打开阅读软件,找到这样的一本书,在手机上阅读;当你想听音乐的时候,你不用再跑去音像店苦苦找寻CD光碟,打开音乐软件,就能聆听音乐;云计算,像在每个不同地区开设不同的自来水公司,没有地域限制,优秀的云软件服务商,向世界每个角落提供软件服务——就像天空上的云一样,不论你身处何方,只要你抬头,就能看见!

2.云计算的关键技术
答:云计算的关键技术包括虚拟化,分布式存储,分布式计算,多租户。
物联网中存在的大量数据需要与云计算和大数据结合
1.虚拟化
将一台计算机虚拟成多台计算机,多个应用程序在相互独立的空间运行,显著提高计算机工作效率。
2.分布式存储
集中式存储无法满足海量数据的需求了,而分布式存储可以在廉价pc服务器上搭建起大规模存储集群。
3.分布式计算
在多个机器上并行处理数据,极大地提高了数据处理速度,可以满足对海量数据的批量处理需求。
4.多租户
多租户计算的主要目的在于使大量用户能够共享同一堆栈的软硬件资源,每一个用户按需使用资源,能够对软件服务进行客户化配置,而不影响其他用户使用。

3.云计算的特点
答:1.超大规模
“云”具有相当的规模,Google云计算已经拥有100多万台服务器, Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器。企业私有云一般拥有数百上千台服务器。“云”能赋予用户前所未有的计算能力。
2.虚拟化
云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需了解、也不用担心应用运行的具体位置。只需要一台笔记本电脑或者一部手机,就可以通过网络服务来实现我们需要的一切,甚至包括超级计算这样的任务。
3.高可靠性
“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机可靠。
4.通用性
云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。
5.高可扩展性
“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。
6.按需服务
“云”是一个庞大的资源池,你可按需购买;云可以像自来水、电、煤气那样计费。
7.极其廉价
由于“云”的特殊容错措施可以采用极其廉价的节点来构成云,“云”的自动化集中式管理使大量企业无需负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,经常只要花费几百美元、几天时间就能完成以前需要数万美元、数月时间才能完成的任务。
8.潜在危险性
云计算服务除了提供计算服务外,还必然提供了存储服务。但是云计算服务当前垄断在私人机构(企业)手中,而他们仅仅能够提供商业信用。对于政府机构、商业机构(特别像银行这样持有敏感数据的商业机构)对于选择云计算服务应保持足够的警惕。
一旦商业用户大规模使用私人机构提供的云计算服务,无论其技术优势有多强,都不可避免地让这些私人机构以“数据(信息)”的重要性挟制整个社会。对于信息社会而言,“信息”是至关重要的。另一方面,云计算中的数据对于数据所有者以外的其他用户云计算用户是保密的,但是对于提供云计算的商业机构而言确实毫无秘密可言。
所有这些潜在的危险,是商业机构和政府机构选择云计算服务、特别是国外机构提供的云计算服务时,不得不考虑的一个重要的前提。

4.什么是集群?
答:集群(cluster)技术是一种较新的技术,通过集群技术,可以在付出较低成本的情况下获得在性能、可靠性、灵活性方面的相对较高的收益,其任务调度则是集群系统中的核心技术。集群是一组相互独立的、通过高速网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理。一个客户与集群相互作用时,集群像是一个独立的服务器。集群配置是用于提高可用性和可缩放性。

5.什么是MPI?
答:MPI是一个跨语言的通讯协议,用于编写并行计算机。支持点对点和广播。MPI是一个信息传递应用程序接口,包括协议和和语义说明,他们指明其如何在各种实现中发挥其特性。MPI的目标是高性能,大规模性,和可移植性。MPI在今天仍为高性能计算的主要模型。
主要的MPI-1模型不包括共享内存概念,MPI-2只有有限的分布共享内存概念。 但是MPI程序经常在共享内存的机器上运行。在MPI模型周边设计程序比在NUMA架构下设计要好因为MPI鼓励内存本地化。
尽管MPI属于OSI参考模型的第五层或者更高,他的实现可能通过传输层的sockets和Transmission Control Protocol (TCP)覆盖大部分的层。大部分的MPI实现由一些指定惯例集(API)组成,可由C,C++,Fortran,或者有此类库的语言比如C#, Java or Python直接调用。MPI优于老式信息传递库是因为他的可移植性和速度。

6.什么是网络计算?
答:计算网络(MCN,Mobile Computing Network)或称为游牧计算网络,是指主机或局域网可在网中漫游的计算机网络,它支持包括通话、寻呼、高速数据、视像在内的多媒体业务,是实现个人通信的途径之一。它具有如下特点:首先是计算机网络,即必须实现资源共享,且具有各种网络服务功能;其次,可允许计算机在网络中的移动,并且移动对于用户必须是透明的。 移动计算网络是最近出现的概念,由于 Internet 的普及使用,所以目前关于移动计算网络的研究主要是基于 Internet 展开的。

7.云计算,MPI,网格计算的区别
答:云计算是从集群技术发展而来的,区别在于集群虽然把多台机器联了起来,但其某项具体任务执行的时候还是会被转发到某台服务器上,而云可以简单的认为是任务可以被分割成多个进程在多台服务器上并行计算,然后得到结果,好处在于大数据量的操作性能非常好,云可以使用廉价的pc服务器,可以管理大数据量与大集群,关键技术在于能够对云内的基础设施进行动态按需分配与管理。云计算与并行计算,分布式计算的区别,以计算机用户来说,并行计算是由单个用户完成的,分布式计算是由多个用户合作完成的,云计算是没有用户参与的,而是交给网络另一端的服务器完成的。

8.什么是计算切分?
答:说到切分(segmentation),大多数人最容易想到的就是中文分词。作为没有天然空格区分的语言,切词可以帮助计算机去索引文章,从而便于信息检索等方面。该部分主要用到了分词的一个方面:降低搜索引擎的性能消耗。我们常用的汉字有5000多个,常用词组是几十万个。在倒排索引中,如果用每个字做索引的话,那么会造成每个字对应的拉链非常长。所以我们一般会用词组来代替单个汉字建立索引。除此,切词更重要的一个功能是帮助计算机理解文字,在这个层次上,切词是不分语言的,任何一个语言,涉及到计算机去“理解”的时候,首先要做的,就是先去切分并在一定程度上消除歧义。这是因为,我们知道计算机本身擅长做的工作就是匹配计算。假设我们可以把每个字词都指向一个语义,当输入一个句子的时候,每个字对应语义的累加要弱于词组语义的累加(因为单独用字语义累加的时候,有个潜在的假设是字和字之间是独立的),现在引入切分目的就是勾勒出字与字之间的关系,从而让计算机更好的理解。
切分的难点在哪里?
简单的讲,评价切分效果可以从三个层次来判定:切分边界,切分片段,整个句子切分结果是否正确。切分边界是指:相邻的token(在中文切分中token可以认为是汉字,在英文中可以认为是单词)之间是否应该被切开;句子级别是指,整个句子的切分结果是不是完全准确。切分片段是介于二者之间一种评估策略: 1. 切分结果片段中是否召回了需要切出的片段(recall); 2. 切分的结果中是否有错误的切分结果(precision)。下面我们从切分算法两个重要的考量标准来阐述切分的难点,即新词识别和歧义性的处理。
新词:切分算法在召回方向上的难题主要为歧义现象和新词的出现。如果一个切分算法无法识别新词从而导致其未召回,最后会影响计算机对该切分句子的理解。前面我们有讲,字到词的过程可以让计算机“假装”理解这个词的意思。比如最近的一个人名新词“位菊月”,如果被切分算法切散后,计算机很难理解这个片段的含义,从而导致在诸如机器翻译等应用中无法准确进行处理。
歧义性:切分算法要求解决切分片段歧义性,切分结果合理。汉字作为表示中文信息的载体,假设每个字/词表示的信息有个上限,假设每种语言总体的信息量接近,由于常用字数有限,这些汉字之间就要有较多的组合形式来成词并表达不同的语义。如果一个汉字可以同时作为2个词的部分,当这2个词按序出现时,就潜在包含了歧义。目前歧义主要分为2种:交叉型歧义,即相邻歧义片段之间有若干token重复,比如“长春市长春药店”,“长春市”与“市长”“长春”与“春药”都是交叉型歧义片段。该歧义现象存在于任何语言的切分过程,比如针对英文,“new york times square”中的”new york times” 和”times square”;还有一种歧义为覆盖型歧义,即token序列在不同语义下需要拆分开或合并在一起,比如“他马上就来”和“他从马上下来”,对后者来讲,切分为“马上”时则导致“从马背上”的意思被“立刻的”意思所覆盖。
除此,切分算法在应用中还要具备不错的性能,在引入统计学习算法时,还要考虑人力在标注语料上面的成本。随着时间的发展,语言也会进行相应的变化,只是在不同的领域会按照不同的速度演变着。因此,切分算法同样需要与时俱进的优化。比如添加更多的词进入词典,更新重建语言模型(Language Model), 对于某些基于判别式(Discriminative model)切分的方法,比如CRFs,需要不定期更新人工标注语料来使得切分算法适应处理当前语料等等。

9.云计算与大数据的关系
答:从技术上来看,大数据和云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
  云时代的来临,大数据的关注度也越来越高,分析师团队认为大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。大数据需要特殊的技术以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模的并行处理数据库、数据挖掘、分布式文件系统、分布式数据可、云计算平台、互联网和可扩展的存储系统。
  整合是云计算的主要功能,无论你采取何种数据分析模型,还是运算方式,它都是通过将海量的服务器资源通过网络进行整合,以整理出有效的数据信息,并将其分配给各个目标客户,从而解决用户因存储资源不足所带来的问题。大数据则是数据爆发式增长所带来的一个全新的研究领域,对于大数据的研究,主要集中在如何对其进行存储和有效的分析,大数据是依靠云计算技术来进行存储和计算的。
云计算是大数据分析的前提
  进入信息化时代之后,数据量在不断的增长,大部分企业都能通过大数据获得额外收益。在大数据分析的过程中,如果提取、处理和利用数据的成本超过了数据价值的本身,那大数据分析也就没有了利用价值,功能越加强大的云计算能力,就越能降低数据提取过程中的成本。
  云计算能够过滤无用信息
  对于大数据系统收集的所有数据来说,大部分数据都是没有利用价值的,因此需要过滤出能为企业提供经济效益的可用数据。云计算可以提供按需拓展的存储资源,可以用来过滤掉无用的数据,是处理外部网络数据的最佳选择。
  云计算助力企业虚拟化建设
  企业引入云计算系统,可以用信息来指导决策,通过将服务软件应用于云平台,还可将数据转化到企业现有系统中,帮助企业强化管理模式。上升到我国互联网整体发展层面,云计算与企业相结合将使得大数据分析变得更加简单,也成为推动企业虚拟化建设的重要手段,将使企业在全球市场更具竞争力。
  云计算能够过滤无用信息
  对于大数据系统收集的所有数据来说,大部分数据都是没有利用价值的,因此需要过滤出能为企业提供经济效益的可用数据。云计算可以提供按需拓展的存储资源,可以用来过滤掉无用的数据,是处理外部网络数据的最佳选择。
  云计算助力企业虚拟化建设
  企业引入云计算系统,可以用信息来指导决策,通过将服务软件应用于云平台,还可将数据转化到企业现有系统中,帮助企业强化管理模式。上升到我国互联网整体发展层面,云计算与企业相结合将使得大数据分析变得更加简单,也成为推动企业虚拟化建设的重要手段,将使企业在全球市场更具竞争力。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值