自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 网络爬虫

在这个用数据说话的时代,数据是一件极其重要的事情,怎样才能抓取到完整以及全面的数据呢?这并不是一件容易的事情。  如果想要做好大数据的分析,单单依靠一己之力或者是周边的数据是远远不够的,还需要借助“神秘的外部力量”。 这个时候,互联网上的资源就非常关键了,从网络上爬取数据资源,就成为了至关重要的一个环节。 那到底什么是网络爬虫呢? 网络爬虫也叫网络蜘蛛,即Web Spider,名字非常形象。  如果把互联网比喻成一个蜘蛛网,那么Web Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址来寻

2020-12-09 16:27:24 296

原创 HDFS集群节点

HDFS集群有两类节点,并以管理者-工作者模式运行,即一个NameNode(管理者)和多个DataNode(工作者)。 DataNode主要是用来存储数据文件,HDFS将一个文件分割成一个个的block,这些block可能存储在一个DataNode上或者是多个DataNode上。 ...

2020-11-17 15:48:05 962

原创 2020-11-10

大数据生态系统 Ambari(安装部署工具) Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。 Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeepr、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。 2

2020-11-10 14:28:36 161

原创 2020-10-27

关于大数据的初步认识 首先我是一名大一的新生,在网上报名的时候我报的是大数据专业,但是再此之前我对于大数据根本没有认识接触更别说理解了。 在这本书内我了解到大数据将会在未来成为新的产业革命,并且岗位需求也将持续激增。 大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。 大数据4V特征 1. Velocity 速度,速率,更快的 2. Variety 类型,数据的结构(有结构数据,半结构数据,无结构数据) 3. Volume 体积 4. Value 价值(价值密

2020-10-27 15:59:19 138

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除