大数据
文章平均质量分 94
蓝色Tu耳其
这个作者很懒,什么都没留下…
展开
-
Hadoop介绍
1 Hadoop简介1.1什么是大数据大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部...原创 2021-07-15 21:46:34 · 1038 阅读 · 2 评论 -
Spark
Spark入门详解Spark概述3.1.1什么是Spark官网:http://spark.apache.orgSpark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。项目是用Scala进行编写。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、Gra...原创 2021-07-15 21:06:15 · 234 阅读 · 0 评论 -
大数据环境搭建整理
1 软件环境和远程工具(1)Centos7服务器一台。(2)远程连接工具(推荐使用方式二)使用远程工具进行centos连接,有两种方式:方式一:给linux系统安装xdfp,使用windows远程连接工具进行连接。此种连接方式有桌面。具体操作方式见:方式二:使用mobaxterm远程工具进行连接。Mobaxterm工具无需安装,下载后打开运行即可使用。优点是:对于无法安装桌面的linux系统,安装后可以上传文件。2 环境安装2.1安装包准备一、将软件安装包上.原创 2021-07-15 20:52:39 · 437 阅读 · 0 评论