![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
笔记
m0_51987015
这个作者很懒,什么都没留下…
展开
-
2020-12-09
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统原创 2020-12-09 16:33:58 · 48 阅读 · 0 评论 -
2020-11-17
全称 Hadoop Distributed File System 简称 hdfs 实质 分布式文件系统 作用 作为Apache Nutch的基础架构 特点 高容错性 适用 大规模数据集 Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。原创 2020-11-17 15:13:13 · 42 阅读 · 0 评论 -
2020-11-10
大数据生态系统 Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。 Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeepr、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管...原创 2020-11-10 14:15:57 · 76 阅读 · 0 评论 -
2020-10-29
最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它们按照进率1024(2的十次方)来计算: 8bit= 1Byte 1KB= 1,024 Bytes 1MB= 1,024 KB = 1,048,576 Bytes 1GB= 1,024 MB = 1,048,576 KB 1TB= 1,024 GB = 1,048,576 MB 1PB= 1,024 TB = 1,048,576 GB 1EB= 1,024 PB = 1,048,原创 2020-10-29 21:32:32 · 40 阅读 · 0 评论