笔记
橘子疼
这个作者很懒,什么都没留下…
展开
-
网络爬虫
在这个用数据说话的时代,数据是一件极其重要的事情,怎样才能抓取到完整以及全面的数据呢?这并不是一件容易的事情。  如果想要做好大数据的分析,单单依靠一己之力或者是周边的数据是远远不够的,还需要借助“神秘的外部力量”。 这个时候,互联网上的资源就非常关键了,从网络上爬取数据资源,就成为了至关重要的一个环节。 那到底什么是网络爬虫呢? 网络爬虫也叫网络蜘蛛,即Web Spider,名字非常形象。  如果把互联网比喻成一个蜘蛛网,那么Web Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址来寻原创 2020-12-09 16:27:24 · 296 阅读 · 0 评论 -
HDFS集群节点
HDFS集群有两类节点,并以管理者-工作者模式运行,即一个NameNode(管理者)和多个DataNode(工作者)。 DataNode主要是用来存储数据文件,HDFS将一个文件分割成一个个的block,这些block可能存储在一个DataNode上或者是多个DataNode上。 ...原创 2020-11-17 15:48:05 · 962 阅读 · 0 评论 -
2020-11-10
大数据生态系统 Ambari(安装部署工具) Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。 Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeepr、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。 2原创 2020-11-10 14:28:36 · 161 阅读 · 0 评论 -
2020-10-27
关于大数据的初步认识 首先我是一名大一的新生,在网上报名的时候我报的是大数据专业,但是再此之前我对于大数据根本没有认识接触更别说理解了。 在这本书内我了解到大数据将会在未来成为新的产业革命,并且岗位需求也将持续激增。 大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。 大数据4V特征 1. Velocity 速度,速率,更快的 2. Variety 类型,数据的结构(有结构数据,半结构数据,无结构数据) 3. Volume 体积 4. Value 价值(价值密原创 2020-10-27 15:59:19 · 138 阅读 · 0 评论