大数据Haddop学习(最详细的环境配置,保证成功!)(一)

大数据

辛苦整理,未经允许,严禁转载!

1.特点(6V)

  1. Volume:数据体量大,数据越来越多。大公司处理的数据量基本上每天至少在TB级别左右。
  2. Variaty:数据的种类和样式多,数据可以划分为结构化,半结构化,非结构化数据。
  3. Velocity:数据量的增长速度是越来越快的。
  4. Varecity: 数据的价值密度低。(有用的数据越来越少)
  5. Value:数据的真实性,越来越多的无用数据
  6. Valence:最近两年加入的数据的连通性,数据之间的关系
  7. 动态性
  8. 可视化
  9. 合法性(隐私性)

大数据的一些术语:杀生,大数据杀熟,用的旧的一些数据来分析你行为。
人工智能:模型 + 训练
5G:IT界推动VR开始发展,试水区,医疗事业

2.包含技术点

  1. 数据收集
  2. 数据存储
  3. 数据清洗 — ETL
  4. 数据分析
    • 离线分析
    • 实时分析
  5. 数据挖掘
    重点3,4,5

Hadoop

1.概述

  1. Hadoop是Apache提供的一套开源的,可扩展/可伸缩的,可靠地用于分布式计算的框架
  2. 市面上,不同的厂商针对Hadoop提供了不同的商用版本:Cloudera的CDH等
  3. Apache官网上提供的Hadoop版本比较混乱

2.发展历程

  1. 创始人:Doug Cutting(核心人物)和Mike Caferalla
  2. 在2002年,doug和mike设计搜索引擎Nutch,爬取了全网10亿个网页的数据,考虑如何存储这些数据
  3. 在2003年,Google发表了一篇论文《The Google FileSystem》(GFS)阐述了分布式存储的原理,但是Google并没有对外公开该框架的使用。Doug就根据这篇论文实现了NDFS(Nutch Distributed FileSystem)
  4. 在2004年,Google发表了一篇论文《The Google MapReduce》阐述了理想分布式计算的思想,同样Google依然没有对外公开框架,Doug又根据这篇论文实现了Nutch中的MapReduce
  5. 在Nuch8.0版本的时候,将DNFS和MapReduce从Nutch中分离出来形成了Hadoop,同时NDFS更名为HDFS
  6. 在2007,Doug从原公司离职,同年11月,Doug入职了Yahoo
  7. 在Yahoo工作期间,又参与实现了HBase,Pig等
  8. Yahoo将Hadoop,HBase,Pig等框架都贡献给了Apache

3.版本(我们使用2.7)

Hadoop

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Spring Boot和Hadoop是两个不同的技术,Spring Boot是一个Java Web开发框架,而Hadoop是一个大数据处理框架。它们并没有直接的联系。如果您想要使用Spring Boot来操作Hadoop集群,则可以使用Hadoop提供的Java API,或者使用一些第三方的Java库来完成操作。 如果您要使用Hadoop 3.x版本,可以按照以下步骤进行操作: 1. 在pom.xml文件中添加hadoop-client依赖: ``` <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>3.x.x</version> </dependency> ``` 2. 配置Hadoop集群的信息,例如core-site.xml、hdfs-site.xml、mapred-site.xml等,可以通过以下方式: ``` @Configuration public class HadoopConfig { @Bean public Configuration hadoopConfiguration() throws Exception { Configuration conf = new Configuration(); conf.set("fs.defaultFS", "hdfs://namenode:8020"); conf.set("mapreduce.framework.name", "yarn"); conf.set("yarn.resourcemanager.address", "resourcemanager:8032"); conf.set("yarn.resourcemanager.scheduler.address", "resourcemanager:8030"); conf.set("mapreduce.jobhistory.address", "historyserver:10020"); conf.set("mapreduce.jobhistory.webapp.address", "historyserver:19888"); return conf; } } ``` 3. 编写Java程序,使用Hadoop提供的API进行操作: ``` @Configuration public class HadoopConfig { @Autowired private Configuration hadoopConfiguration; @Bean public FileSystem fileSystem() throws Exception { return FileSystem.get(hadoopConfiguration); } } ``` 以上是一个简单的示例,您可以根据自己的需求进行修改和扩展。如果您还有其他问题,请随时提出。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值