自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 2020-12-09

 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 下面我们来分析网络爬虫具体要做哪些核心工作: 通过网络向指定的 URL 发送请求,获取服务器响应内容。 使用某种技术(如正则表达式、XPath 等)提取页面中我们感兴趣的信息。 高效地识别响应页面中的链接信息,顺着这些链接递归执行此处介绍的第 1、2、3 步; 使用多线程有效地管理网络通信交互。 如果直

2020-12-09 14:54:44 164

原创 2020-12-01

Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)文件系统中的数据。HDFS开始

2020-12-01 20:19:33 75

原创 2020-11-17

HDFS即Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储超大文件,它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。 NDFS架构: 个

2020-11-17 17:52:32 81

原创 2020-11-10

自2013年起,无论是 BAT 还是传统的商业公司,都陆续在自己的软件系统中大规模使用大数据技术。不仅如此,越来越多的软件工程师开始转型成为大数据工程师,从事大数据开发与应用的工作。市场对于大数据的人才需求与日俱增,大数据方向俨然成为了业内炙手可热的职位。为什么讲大数据都要从Hadoop开始?大数据的问题和挑战不同以往,它的处理方法与技巧也颇有不同。理解大数据面对的问题以及处理技巧,是构建大数据知识体系的源头。理解大数据,从理解Hadoop开始。 模块2:大数据生态体系主要产品原理与架构 大数据领域不只有H

2020-11-10 14:26:19 87

原创 2020-10-27

作为一名大一新生,在报考时我选择了大数据这个专业,大数据这个专业是当下最热门的专业之一,它深深的吸引到了我。在今天第一次课中我知道了大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力,大数据具有4v特征:1velocity速度速率 2valume体积3value价值密度低过滤出有价值的信息4variety类型数据的结构认识了容量度量单位,认识了最小的单位到最大的单位,Byte、KB、MB、GB、TB、PB、EB、ZB

2020-10-27 18:37:24 112

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除