自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 什么是网络爬虫

什么是网络爬虫 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 ...

2020-12-09 16:18:02 443

原创 HDFS

(一)HDFS简介及其基本概念 HDFS(Hadoop Distributed File System)是hadoop生态系统的一个重要组成部分,是hadoop中的的存储组件,在整个Hadoop中的地位非同一般,是最基础的一部分,因为它涉及到数据存储,MapReduce等计算模型都要依赖于存储在HDFS中的数据。HDFS是一个分布式文件系统,以流式数据访问模式存储超大文件,将数据分块存储到一个商业硬件集群内的不同机器上。   这里重点介绍其中涉及到的几个概念:(1)超大文件。目前的hadoop集群能够存储几

2020-11-17 15:41:37 85

原创 ## 大数据生态系统

大数据生态系统 1.Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeepr、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。 2.面向对象编程(OO,Object

2020-11-10 14:33:49 192

原创 2020-11-01

大数据(Big Data),指无法在一定时间范围内常规软件工具进行捕捉,管理和处理的数据的集合。 大数据具有4V特征,(Variety)多数据类型交叉分析、(Velocity)实时处理(value)海量数据挖掘(Volume)PB+数据类型 内存容量最小单位是:bit,1B=8bit,1KB=1024B,按从小到大顺序给出常用量单位:bit、KB、MB、GB、TB、PB、EB、ZB、TB、BB、NB、DB.。从KB开始他们按照率1024来计算。 ...

2020-11-01 21:25:30 82

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除