- 博客(4)
- 收藏
- 关注
原创 什么是网络爬虫
什么是网络爬虫 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 ...
2020-12-09 16:18:02 443
原创 HDFS
(一)HDFS简介及其基本概念 HDFS(Hadoop Distributed File System)是hadoop生态系统的一个重要组成部分,是hadoop中的的存储组件,在整个Hadoop中的地位非同一般,是最基础的一部分,因为它涉及到数据存储,MapReduce等计算模型都要依赖于存储在HDFS中的数据。HDFS是一个分布式文件系统,以流式数据访问模式存储超大文件,将数据分块存储到一个商业硬件集群内的不同机器上。 这里重点介绍其中涉及到的几个概念:(1)超大文件。目前的hadoop集群能够存储几
2020-11-17 15:41:37 85
原创 ## 大数据生态系统
大数据生态系统 1.Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeepr、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。 2.面向对象编程(OO,Object
2020-11-10 14:33:49 192
原创 2020-11-01
大数据(Big Data),指无法在一定时间范围内常规软件工具进行捕捉,管理和处理的数据的集合。 大数据具有4V特征,(Variety)多数据类型交叉分析、(Velocity)实时处理(value)海量数据挖掘(Volume)PB+数据类型 内存容量最小单位是:bit,1B=8bit,1KB=1024B,按从小到大顺序给出常用量单位:bit、KB、MB、GB、TB、PB、EB、ZB、TB、BB、NB、DB.。从KB开始他们按照率1024来计算。 ...
2020-11-01 21:25:30 82
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人