对Cloudera和Hadoop的认识

   各位程序猿(媛)大家吼啊~今天我又来分享大数据学习中的一些必要的东西。

谈到大数据,就不得不提到爬虫来抓取数据,但是抓取数据后又怎么分析数据进行数据挖掘呢?一般小量的数据是能够自己处理的,但是大到1PB,甚至1NB的数据该怎样分析呢?这样就有了Hadoop这玩意儿。

Hadoop是一个用JAVA写的平台,是一个适合大数据的分布式存储和计算的平台。 主要是分布式文件系统,简单的说,如果你服务器要做一个群集,可能需要相同配置的电脑,要NAS, 但HADOOP不需要,在不同的服务器上安装,就可以实现群集了,再将每个机器上的计算结果合并起来 再在一台机器上计算,得到最终结果。
在这里插入图片描述

举个例子:实验室大佬给了小明任务一:把用爬虫爬取的图片数量计算出来,这个文件大概100M,小明几分钟就搞定了。后来实验室大佬又给了小明任务二,还是计算出爬虫爬取的图片数量,但这个文件大概有1TB。再然后,实验室大佬让小明计算一个1PB大小的文件中的图片数量。小明:(黑人问号?我电脑都TM才1TB),然后实验室大佬给小明说了个东西,叫Hadoop。小明:嘤嘤嘤(大佬说啥就是啥),然后小明就用百度大法找到了Hadoop,用了之后再也回不来了。
在这里插入图片描述
那么Hadoop有啥用呢
1、大数据存储:分布式存储
2、日志处理:擅长日志分析
3、机器学习: 比如Apache Mahout项目
4、搜索引擎:hadoop + lucene实现
5、数据挖掘:目前比较流行的广告推荐,个性化广告推荐
具体请参考博文https://blog.csdn.net/qq_32649581/article/details/82892861

那么提到了Hadoop就不得不提到Cloudera(CDH),Cloudera对于Hadoop的关系就如同Ubuntu之于Linux的关系,就是一个子系统。一般用VMware安装Cloudera的虚拟机即可
安装步骤:
1 . 从官网上载VMWARE VM快速安装包

https://www.cloudera.com/downloads/quickstart_vms/5-12.html

2 . 下载后的安装包,解压之后得到*。VMX文件

3.VMware Workstation 打开虚拟机 打开*.vmx文件

4.启动虚拟机

5 . 可以直接通过虚拟机界面中的浏览器的收藏夹打开HUE检查配置。默认是所有组件全部安装

6.打开CM,如果无法连接,第一次需要运行桌面上的CM试用版图标。

7.默认用户名是cloudera/cloudera

8.如果需要增加节点,按CM正常操作。

好了垃圾佬的分享到此就…未完待续,路漫漫其修远兮,经过以后的学习后我再慢慢完善~

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值