对Cloudera和Hadoop的认识

最新推荐文章于 2024-05-07 09:04:44 发布

炫佑827

最新推荐文章于 2024-05-07 09:04:44 发布

阅读量1.7k

点赞数

文章标签：大数据

本文链接：https://blog.csdn.net/qq_43552025/article/details/88609313

版权

   各位程序猿（媛）大家吼啊~今天我又来分享大数据学习中的一些必要的东西。

谈到大数据，就不得不提到爬虫来抓取数据，但是抓取数据后又怎么分析数据进行数据挖掘呢？一般小量的数据是能够自己处理的，但是大到1PB,甚至1NB的数据该怎样分析呢？这样就有了Hadoop这玩意儿。

Hadoop是一个用JAVA写的平台，是一个适合大数据的分布式存储和计算的平台。 主要是分布式文件系统，简单的说，如果你服务器要做一个群集，可能需要相同配置的电脑，要NAS，但HADOOP不需要，在不同的服务器上安装，就可以实现群集了，再将每个机器上的计算结果合并起来再在一台机器上计算，得到最终结果。
在这里插入图片描述

举个例子：实验室大佬给了小明任务一：把用爬虫爬取的图片数量计算出来，这个文件大概100M，小明几分钟就搞定了。后来实验室大佬又给了小明任务二，还是计算出爬虫爬取的图片数量，但这个文件大概有1TB。再然后，实验室大佬让小明计算一个1PB大小的文件中的图片数量。小明：（黑人问号？我电脑都TM才1TB），然后实验室大佬给小明说了个东西，叫Hadoop。小明：嘤嘤嘤（大佬说啥就是啥），然后小明就用百度大法找到了Hadoop，用了之后再也回不来了。
在这里插入图片描述
那么Hadoop有啥用呢
1、大数据存储：分布式存储
2、日志处理：擅长日志分析
3、机器学习: 比如Apache Mahout项目
4、搜索引擎:hadoop + lucene实现
5、数据挖掘：目前比较流行的广告推荐，个性化广告推荐
具体请参考博文https://blog.csdn.net/qq_32649581/article/details/82892861

那么提到了Hadoop就不得不提到Cloudera（CDH），Cloudera对于Hadoop的关系就如同Ubuntu之于Linux的关系，就是一个子系统。一般用VMware安装Cloudera的虚拟机即可
安装步骤：
1 . 从官网上载VMWARE VM快速安装包

https://www.cloudera.com/downloads/quickstart_vms/5-12.html

2 . 下载后的安装包，解压之后得到*。VMX文件

3.VMware Workstation 打开虚拟机打开*.vmx文件

4.启动虚拟机

5 . 可以直接通过虚拟机界面中的浏览器的收藏夹打开HUE检查配置。默认是所有组件全部安装

6.打开CM，如果无法连接，第一次需要运行桌面上的CM试用版图标。

7.默认用户名是cloudera/cloudera

8.如果需要增加节点，按CM正常操作。

好了垃圾佬的分享到此就…未完待续，路漫漫其修远兮，经过以后的学习后我再慢慢完善~

炫佑827

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
对Cloudera和Hadoop的认识

各位程序猿（媛）大家吼啊~今天我又来分享大数据学习中的一些必要的东西。谈到大数据，就不得不提到爬虫来抓取数据，但是抓取数据后又怎么分析数据进行数据挖掘呢？一般小量的数据是能够自己处理的，但是大到1PB,甚至1NB的数据该怎样分析呢？这样就有了Hadoop这玩意儿。**Hadoop是一个用JAVA写的平台，是一个适合大数据的分布式存储和计算的平台。**主要是分布式文件系统，简单的说，如果...
复制链接

扫一扫