笔记
Away..
这个作者很懒,什么都没留下…
展开
-
2020-12-11
网络爬虫也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理。在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高。此时,我们可以使用网络爬虫对数据信息进行自动采集,比如应用于搜索引擎中对站点进行爬取收录,应用于数据分析与挖掘中对数据进行采集,应用于金融分析中对金融数据进行采集,除此之外,还可以将网络爬虫应用于舆情监测与分析、目标客户数据的收集等各个领域。当然,要学习网络爬虫开发,首先需要认识网络爬虫,本文将带领大家一起认识几种典型的网络原创 2020-12-11 23:35:57 · 87 阅读 · 0 评论 -
2020-11-24
Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。Hadoop 最核心的模块包括Hadoop Common、HDFS与MapReduce。HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持。采用Java语言开发,可以部署在多种普通的廉价机器上,以集群处理数量积达到大型主机处理性能。HDFS 架构原理HDFS采用master/slave架构。一个HDFS集群包含一个单独的NameNode和多个Da原创 2020-11-24 11:38:39 · 218 阅读 · 0 评论 -
2020-11-14
Hadoop一共分为三部分1.大数据存储HDFS2.大数据分析计算MapReduce3.大数据管理 HBASEHDFS 大数据存储。是指被设计成适合运行在通用硬件上的分布式文件系统它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。MapReduce,大数据分析计算。MapReduce是一种编程模型,用于大数据,的并行运算。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。HBASE 大数据管理。是一个分布式的、面向列的开源原创 2020-11-14 16:34:28 · 68 阅读 · 0 评论 -
2020-10-27
来到我我所期待的大学,今天上了第一节大数据导论,让我对大数据有了最初步的了解,老师讲解了四vVelocity 速度 速率 更快的处理数据value 价值 (价值密度低 ,过滤出有价值的信息)variety 类型 数据的结构(有结构的数据,半结构数据,无结构数据)volume 体积(非常大。)...原创 2020-10-27 21:24:23 · 96 阅读 · 0 评论