大数据学习
大数据学习
计忆芳华
一个2017年入坑的java小白。
个人博客:jiyifh.top。
展开
-
大数据总结【第十二章:数据可视化】
简述可视化技术实现的目标。观测跟踪数据分析数据辅助理解数据增强数据吸引力2【简答题】列举几种较流行的可视化工具及其功能。入门工具:Excel信息图标工具:Google Chart API, D3,Visual.ly,Tableau,大数据墨镜地图工具:Googel Fusion Tables, Modest Maps,Leaflet时间线工具:Timetoaset, Xtimeline高级分析工具:R, Weka,Gephi...原创 2020-06-11 14:22:39 · 856 阅读 · 2 评论 -
大数据总结【第十一章:图计算】
1【单选题】Pregel是一种基于()模型实现的并行图处理系统。A、SBPB、TSPC、STPD、BSP我的答案:D2【单选题】谷歌在后Hadoop时代的新“三驾马车”不包括()。A、DremelB、PregelC、CaffeineD、Hama我的答案:D3【多选题】以下关于Pregel图计算框架说法正确的是()。A、通常只对满足交换律和结合律的操作才会开启Combiner功能B、对于全局拓扑改变,Pregel采用了惰性协调机制C、Aggregator提供了一种全局通信、监控和原创 2020-06-11 14:20:37 · 1625 阅读 · 0 评论 -
大数据总结【第十章:流计算】
【单选题】流计算秉承一个基本理念,即数据的价值随着时间的流逝而 (),如用户点击流。A、升高B、不变C、降低D、不确定我的答案:CHadoop运行的是MapReduce任务,类似地,Storm运行的任务叫做()。A、BoltB、SpoutC、TupleD、Topology我的答案:D对于一个流计算系统来说,它应达到如下哪些需求A、可靠性B、海量式C、分布式D、高性能我的答案:ABCD4【多选题】数据采集系统的基本架构包括哪些部分A、ControllerB、Stor原创 2020-06-11 14:16:33 · 2603 阅读 · 0 评论 -
大数据总结【第九章:Spark】
Spark的主要特点Scala语言是多凡是编程语言,会使用SCALA的简单语句Spark与hadoop的对比Spark生态系统:大数据处理的三种类型,各组件的功能,运行架构RDD的编程,执行过程示意图 最少10分编程 ::shell命令的简单使用...原创 2020-06-11 10:18:36 · 6490 阅读 · 0 评论 -
大数据总结【第七章:MapReduce】
MapReduce模型简介MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数:Map和Reduce编程容易,不需要掌握分布式并行编程细节,也可以很容易把自己的程序运行在分布式系统上,完成海量数据的计算MapReduce采用“分而治之”策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片(split),这些分片可以被多个Map任务并行处理MapReduce设计的一个理念就是“计算向数据靠拢”,而不是“数据向计算靠拢”,因为,移动数据需要大量的网络传输原创 2020-06-10 16:16:09 · 7374 阅读 · 0 评论 -
大数据总结【第六章:云数据库】
概念云数据库是部署和虚拟化在云计算环境中的数据库。云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法,它极大地增强了数据库的存储能力,消除了人员、硬件、软件的重复配置,让软、硬件升级变得更加容易,同时也虚拟化了许多后端功能。云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点。特性动态可扩展高可用性较低的使用代价易用性高性能免维护安全典型产品企业产品AmazonDynamo、Simple DB、RDBGoogleGoo原创 2020-06-10 10:27:15 · 1047 阅读 · 0 评论 -
大数据总结【第五章:Nosql】
Nosqlnot only sqlNoSQL兴起的原因:(关系数据无法满足Web 2.0的需求)1)无法满足海量数据的管理需求2)无法满足数据高并发的需求3)无法满足高可扩展性和高可用性的需求Web2.0特性1)Web2.0网站系统通常不要求严格的数据库事务2)Web2.0并不要求严格的读写实时性3)Web 2.0通常不包含大量复杂的SQL查询NoSQL数据库具有以下几个特点(1)灵活的可扩展性(2)灵活的数据模型(3)与云计算紧密融合与关系数据库的比较(1)关系数据库优势:原创 2020-06-10 08:01:32 · 1260 阅读 · 0 评论 -
大数据总结【第四章:Hbase】
简答题1. HBase简介HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表2. HBase 和传统关系数据库的区别区别传统关系数据库HBase数据类型关系模型数据模型数据操作插入、删除、更新、查询、多表连接插入、查询、删除、清空,无法实现表与表之间关联原创 2020-06-09 22:34:50 · 10084 阅读 · 0 评论 -
大数据总结【第三章:HDFS】
分布式文件系统的结构结构图主从结构,多副本存储分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类,一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode),另一类叫“从节点”(Slave Node)或者也被称为“数据节点”(DataNode)HDFS的实现目标●兼容廉价的硬件设备●流数据读写●大数据集●简单的文件模型●强大的跨平台兼容性HDFS特殊的设计,在实现上述优良特性的同时,也使得自身具有一些应用局限性,主要包括以下几个方面原创 2020-06-09 19:41:06 · 8615 阅读 · 1 评论 -
大数据总结【第二章:Hadoop】
简答题hadoop简介Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduceHadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工原创 2020-06-09 16:06:30 · 4776 阅读 · 0 评论 -
大数据总结【第一章:大数据概述】
简答题什么是大数据大数据是指无法在容许的时间内用常规软件工具对其内容进行抓取,管理和处理的 数据。大数据特点4V数据量大(Volume),数据类型繁多(Variety),处理速度快(Velocity).价值密度低(Value)大数据对思维方式的重要影响大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率而非精确,相关而非因果。大数据的关键技术批处理计算,流计算,图计算,查询分析计算大数据计算模式(1)、批处理计算:批处理计算主要解决针对大规模数据的批量处理,也就是我们日常数原创 2020-06-09 12:12:55 · 6623 阅读 · 1 评论 -
大数据期末总复习知识点总结
第一章 概述大数据概念 ;4v大数据的影响,对思维方式的影响p11大数据关键技术,四个阶段大数据计算模式大数据与云计算物联网的关系第二章Hadoophadoop简介看远分布式平台基于java开发的,核心HDFS,maprhadoop的特性Hadoop的生态 ,各组件的实现的功能hadoop简单的命令使用:启动,停止。。。。第三章HDFS分布式文件系统的结构P43图,主要主从结构,多副本存储. HDFS的实现目标 P45相关概念:块,名称节点,数据节点,第二名称节点各自原创 2020-06-09 11:00:00 · 3281 阅读 · 0 评论 -
Spark Streaming简介
原创 2020-05-19 11:50:48 · 121 阅读 · 0 评论 -
【大数据学习-实验-6】Spark应用
1.统计有多少行符合要求1.文档test.txt中存储了若干用户信息,一个用户的信息存储为一行数据,要求过滤出其中性别为“男”的用户,并且统计有多少行符合要求。18375,2011-5-20,2013-6-5,女,4,广州,广东,CN,25,2014-3-31,2,0,0,0,100,0,1134,0,2013-6-9,0.25,0,430,297,4,4,195,12123,1,0,0,2,0,0,0,12318,12318,12123,12318,12123,1,0,0,0,2236041,201原创 2020-05-15 13:49:17 · 7335 阅读 · 0 评论 -
【大数据学习】Scala基本操作
相关知识Scala即可伸缩的语言(Scalable Language),是一种多范式的编程语言,类似于java的编程,设计初衷是要集成面向对象编程和函数式编程的各种特性。1.Scala的特点(1)Scala具有更广泛意义上的类重用。Scala允许定义新类的时候重用“一个类中新增的成员定义(即相较于其父类的差异之处)”。(2)Scala还包含了若干函数式语言的关键概念,包括高阶函数(Higher-Order Function)、局部套用(Currying)、嵌套函数(Nested Function)、原创 2020-05-09 18:54:28 · 702 阅读 · 0 评论 -
【大数据学习-实验-5】MapReduce应用
1.编程实现WordCount实例。package mapreduce;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop....原创 2020-04-21 12:17:37 · 7263 阅读 · 0 评论 -
【大数据学习-实验-4】ubuntu内mongodb的安装与使用
参考文档:https://blog.csdn.net/qq_43925089/article/details/103332699https://www.cnblogs.com/shileima/p/7823434.htmlhttps://blog.csdn.net/weixin_43453386/article/details/83347385mongodb的安装实验使用的NoSQL数据...原创 2020-04-02 16:50:06 · 1592 阅读 · 2 评论 -
【大数据学习-实验-2】分布式文件系统应用
分布式文件系统应用一、 实验目的1. 理解HDFS在Hadoop体系结构中的角色;2. 掌握HDFS操作常用的Shell命令;3. 熟悉HDFS操作常用的Java API。二、 实验内容1.利用Hadoop提供的Shell命令完成以下任务:(1)在Hadoop的/目录下创建一个test1文件夹;(2)在Hadoop的test1文件夹中创建一个file.txt文件;(3)查看H...原创 2020-03-29 14:20:20 · 2146 阅读 · 0 评论 -
【大数据学习-实验-1】 hadoop实验环境搭建和Linux常用基本操作
一、 实验目的1. Linux系统环境搭建;2. 在Linux系统上安装Hadoop及相关应用软件;3. 常用基本操作。二、实验内容1.完成Linux系统环境搭建。2.完成Hadoop及相关应用软件的安装和配置。3.熟悉常用的Linux操作1)cd命令:切换目录(1)切换到目录/usr/local(2)切换到当前目录的上一级目录(3)切换到当前登录Linux系统的用户的自...原创 2020-03-29 11:04:16 · 9413 阅读 · 1 评论 -
HBase JAVA API(大章鱼版)
任务目标1.了解HBase语言的基本语法2.了解HBase开发的原理3.了解HBase Java API的使用相关知识HBase与Hadoop一样,都是用Java编写的,所以HBase对Java支持是必须的,HBase Java API核心类介绍如下:1.HBaseConfiguration类HBaseConfiguration是每一个HBase Client都会使用到的对象,它代...原创 2020-03-29 10:31:54 · 660 阅读 · 0 评论 -
Hadoop Shell基本操作(大章鱼版)
Hadoop Shell基本操作任务目标1.熟练掌握常用的hadoop shell命令相关知识调用文件系统(FS)Shell命令应使用 hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和author...原创 2020-03-29 10:14:49 · 802 阅读 · 0 评论 -
HDFS JAVA API(大章鱼版)
HDFS JAVA API任务目标1.掌握HDFS JAVA API的2.了解JAVA API的执行流程相关知识.HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础篇,为了实现本地与HDFS的文件传输,主要借助Eclipse开发环境,通过java编程实现了远程HDFS的文件创建,上传,下载,删除等。...原创 2020-03-29 09:54:35 · 1137 阅读 · 0 评论 -
HBase2.2.2安装和编程实践指南
一、HBase介绍HBase是一个分布式的、面向列的开源数据库,源于Google的一篇论文《BigTable:一个结构化数据的分布式存储系统》。HBase以表的形式存储数据,表有行和列组成,列划分为若干个列族/列簇(column family)。欲了解HBase的官方资讯,请访问HBase官方网站。HBase的运行有三种模式:单机模式、伪分布式模式、分布式模式。单机模式:在一台计算机上安装和...转载 2020-03-24 11:35:42 · 1641 阅读 · 0 评论 -
Hadoop3.1.3安装教程_单机/伪分布式配置_Hadoop3.1.3/Ubuntu18.04(16.04)
环境本教程使用 Ubuntu 18.04 64位 作为系统环境(或者Ubuntu 14.04,Ubuntu16.04 也行,32位、64位均可),请自行安装系统(可参考使用VirtualBox安装Ubuntu)。如果用的是 CentOS/RedHat 系统,请查看相应的CentOS安装Hadoop教程_单机伪分布式配置。使用本教程请确保系统处于联网状态下,部分高校使用星网锐捷连接网络,可能导...转载 2020-03-24 11:42:04 · 1385 阅读 · 0 评论 -
【大数据学习-实验-3】分布式数据库应用hbase
分布式数据库应用一、 实验目的1.理解HBase在Hadoop体系结构中的角色;2.熟练使用HBase操作常用的Shell命令;3.熟悉HBase操作常用的Java API。二、 实验内容1.用Hbase Shell命令完成如下操作。(1) 使用version命令查看版本信息;(2) 使用list命令来查看一下有哪些表;(3) 创建一张表,表的参数如下:表名为table_name...原创 2020-03-24 18:38:05 · 3048 阅读 · 0 评论 -
怎样在linux系统安装eclipse编辑器(详细攻略)
eclipse下载网址https:/www.eclipse.org/downloads文件大小应该是300多兆下载完成后,打开文件管理器,打开最近使用,然后提取文件,我这里将文件提取到了主目录下的apps文件夹中提取完成后,打开apps文件夹就找到了我提取的文件,这里eclipse-jee是我改名后的打开文件夹再打开eclipse这里需要将jdk安装目录下的jre拷贝到...原创 2020-03-13 09:57:20 · 573 阅读 · 0 评论