自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 2020-12-10

网络爬虫也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理。在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高。 此时,我们可以使用网络爬虫对数据信息进行自动采集,比如应用于搜索引擎中对站点进行爬取收录,应用于数据分析与挖掘中对数据进行采集,应用于金融分析中对金融数据进行采集,除此之外,还可以将网络爬虫应用于舆情监测与分析、目标客户数据的收集等各个领域。 当然,要学习网络爬虫开发,首先需要认识网络爬虫,本文将带领大家一起认识几种典型的网

2020-12-10 09:46:01 55

原创 2020-11-24

HDFS的全称是Hadoop Distributed File System易于扩展的分布式文件系统,运行在大量普通廉价机器上,提供容错机制,为大量用户提供性能不错的文件存取服务 整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持,并通过MR来实现对分布式并行任务处理的程序支持。 HDFS采用主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的,NameNode作为主服务器,管理文件系统命名空间和客户端对文件的访问操作。Dat

2020-11-24 12:37:21 34

原创 2020-11-03

大数据(Big Date),指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合。 velocity,variety,volume,value是其特征 了解它当然个各个单位单位上不了了 容量度量最小单位是bit,1B=8bit,1KB=1024 按从小到大顺序常用度量单位是:bit KB MB GB TB PB EB ZB YB BB NB DB。从KB开始它们按照进率1024来计算。 大数据的生命周期由采集,存储,处理,解释和应用形成。 新生开始第一节关于大数据的课,感觉好神奇也好复杂。又有

2020-11-03 12:46:22 49

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除