- 博客(4)
- 收藏
- 关注
原创 网络爬虫
随着大数据时代的来临,网络爬虫在互联网中的地位将越来越重要。互联网中的数据是海量的,如何自动高效地获取互联网中我们感兴趣的信息并为我们所用是一个重要的问题,而爬虫技术就是为了解决这些问题而生的。 我们感兴趣的信息分为不同的类型:如果只是做搜索引擎,那么感兴趣的信息就是互联网中尽可能多的高质量网页;如果要获取某一垂直领域的数据或者有明确的检索需求,那么感兴趣的信息就是根据我们的检索和需求所定位的这些信息,此时,需要过滤掉一些无用信息。前者我们称为通用网络爬虫,后者我们称为聚焦网络爬虫。 为什么学习网络爬虫 我
2020-12-12 00:43:24 108 1
原创 HDFS基础
HDFS即Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储超大文件,它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。 NDFS架构: 个
2020-11-17 16:05:20 68
原创 认识hadoop
Apache Ambari(安装部署工具)是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等 ZooKeeper(分布式协调服务)是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维
2020-11-10 16:50:00 70
原创 2020-10-27
我是一名大一新生,我选的专业是大数据技术与应用。作为是一名没有怎么接触过电脑的我来说,我不知道我能不能学会这些…… 第一节课老师给我们讲解了大数据4v的特征 1、容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息。 2、种类(Variety):数据类型的多性。 3、速度(Velocity):指获得数据的速度。 4、可变性(Variability):妨碍了处理和有效地管理数据的过程。 容量度量最小单位是bit(位),从小到大为:bit、B、KB、MB、GB、TB、PB、EB、ZB、...
2020-10-27 21:49:10 181
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人