- 博客(3)
- 收藏
- 关注
原创 2020-12-10
网络爬虫也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理。在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高。 此时,我们可以使用网络爬虫对数据信息进行自动采集,比如应用于搜索引擎中对站点进行爬取收录,应用于数据分析与挖掘中对数据进行采集,应用于金融分析中对金融数据进行采集,除此之外,还可以将网络爬虫应用于舆情监测与分析、目标客户数据的收集等各个领域。 当然,要学习网络爬虫开发,首先需要认识网络爬虫,本文将带领大家一起认识几种典型的网
2020-12-10 09:46:01 55
原创 2020-11-24
HDFS的全称是Hadoop Distributed File System易于扩展的分布式文件系统,运行在大量普通廉价机器上,提供容错机制,为大量用户提供性能不错的文件存取服务 整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持,并通过MR来实现对分布式并行任务处理的程序支持。 HDFS采用主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的,NameNode作为主服务器,管理文件系统命名空间和客户端对文件的访问操作。Dat
2020-11-24 12:37:21 34
原创 2020-11-03
大数据(Big Date),指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合。 velocity,variety,volume,value是其特征 了解它当然个各个单位单位上不了了 容量度量最小单位是bit,1B=8bit,1KB=1024 按从小到大顺序常用度量单位是:bit KB MB GB TB PB EB ZB YB BB NB DB。从KB开始它们按照进率1024来计算。 大数据的生命周期由采集,存储,处理,解释和应用形成。 新生开始第一节关于大数据的课,感觉好神奇也好复杂。又有
2020-11-03 12:46:22 49
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人