大数据导论作业
文章平均质量分 61
大数据导论
surlig7012
这个作者很懒,什么都没留下…
展开
-
关于深度学习
1.释义 深度学习是机器学习的一种,而机器学习是实现人工智能的必经路径。深度学习的概念源于人工神经网络的研究,含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本等。含多个隐层的深度学习模型 从一个输入中产生一个输出所涉及的计算可以通过一个流向图(flow graph)来表示:流向图是...原创 2021-11-02 20:22:23 · 961 阅读 · 0 评论 -
数据挖掘技术
1.技术流程从数据本身来考虑,通常数据挖掘需要有数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示等8个步骤。(1) 信息收集:根据确定的数据分析对象抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。(2) 数据集成:把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。(3) 数据规约:执行多数的数据挖掘算法即使在少量数据上也需要很长的时间,而原创 2021-11-02 20:17:09 · 277 阅读 · 0 评论 -
关于机器学习
前言 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智能核心,是使计算机具有智能的根本途径。1.研究现状 机器学习是人工智能及模式识别领域的共同研究热点,其理论和方法已被广泛应用于解决工程应用和科学领域的复杂问题。2010年的图灵奖获得者为哈佛大学的Leslie vlliant教授,其获...原创 2021-11-02 20:12:24 · 3109 阅读 · 0 评论 -
关于统计学
1.起源背景 统计学是一门很古老的科学,一般认为其学理研究始于古希腊的亚里士多德时代,迄今已有两千三百多年的历史。它起源于研究社会经济问题,在两千多年的发展过程中,统计学至少经历了“城邦政情”、“政治算数”和“统计分析科学”三个发展阶段。所谓“数理统计”并非独立于统计学的新学科,确切地说,它是统计学在第三个发展阶段所形成的所有收集和分析数据的新方法的一个综合性名词。概率论是数理统计方法的理论基础,但是它不属于统计学的范畴,而是属于数学的范畴。2.主要学派统计学的萌芽产生在欧洲,17世纪中叶..原创 2021-11-02 20:00:49 · 1613 阅读 · 0 评论 -
YARN的工作机制
a.YARN的工作流程b.FIFO的调度器说明c.容量调度器的说明d.公平调度器的说明原创 2021-11-02 19:40:35 · 65 阅读 · 0 评论 -
Hadoop中Block和Split的区别
1 Block当我们把文件上传到HDFS时,文件会被分块,这个是真实物理上的划分。每块的大小可以通过hadoop-default.xml里配置选项进行设置。系统也提供默认大小,其中Hadoop 1.x中的默认大小为64M,而Hadoop 2.x中的默认大小为128M。每个Block分别存储在多个DataNode上(默认是3个),用于数据备份进而提供数据容错能力和提高可用性。在很多分布式文件系统中我们都可以看到Block的存在,这种设计的优点是:存储的文件大小可以大于集群中任意一个磁盘的容量。这.原创 2021-11-02 19:27:33 · 357 阅读 · 0 评论 -
hadoop节点距离计算的计算方法
记住一句话:节点距离=两个节点到达最近的共同祖先的距离总和如图:在同一节点上,它们之间的距离当然是0,2*0=0在同一机架上的不同节点,它们的共同祖先就是这个机架,而这两个节点到机架的距离都是1,所以这两个节点的距离为1+1=2在同一集群的不同机架上的节点,它们的共同祖先是集群,而这两个节点要到达集群,首先要到这个机架(距离1),然后到达集群(距离2),所以两个节点的距离为2+2=4在同一数据中心的不同集群上的节点,它们的共同祖先是数据中心,以此类推,一个节点到数据中心的距离是3,两.原创 2021-11-02 19:19:48 · 1448 阅读 · 0 评论 -
HDFS写数据流程
1、跟NameNode通信请求上传文件,NameNode检查目标文件是否已经存在,父目录是否已经存在2、NameNode返回是否可以上传3、Client先对文件进行切分,请求第一个block该传输到哪些DataNode服务器上4、NameNode返回3个DataNode服务器DataNode 1,DataNode 2,DataNode 35、Client请求3台中的一台DataNode 1(网络拓扑上的就近原则,如果都一样,则随机挑选一台DataNode)上传数据(本质上是一个RPC调用,建原创 2021-10-26 22:12:13 · 81 阅读 · 0 评论 -
HDFS读数据流程
1、与NameNode通信查询元数据,找到文件块所在的DataNode服务器 2、挑选一台DataNode(网络拓扑上的就近原则,如果都一样,则随机挑选一台DataNode)服务器,请求建立socket流 3、DataNode开始发送数据(从磁盘里面读取数据放入流,以packet(一个packet为64kb)为单位来做校验) 4、客户端以packet为单位接收,先在本地缓存,然后写入目标文件...原创 2021-10-26 22:13:10 · 60 阅读 · 0 评论