自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 2020-12-09

网络爬虫网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。面临的问题研究表明接近 30%的页面是重复的;动态页

2020-12-09 15:10:18 103

原创 2020-11-17

HDFSHadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)文件系统中的数据。

2020-11-17 15:25:59 107

原创 2020-11-10

2020-11-10发布大数据生态系统Hadoop是一个用Java写好的软件,只要计算机安装好了jdk就可以部署Hadoop.在这里插入图片描述HDFS,是Hadoop Distributed File System的简称,是Hadoop抽象文件系统的一种实现。Hadoop抽象文件系统可以与本地系统、Amazon S3等集成,甚至可以通过Web协议(webhsfs)来操作。HDFS的文件分布在集群机器上,同时提供副本进行容错及可靠性保证。例如客户端写入读取文件的直接操作都是分布在集群各个机器上的,没

2020-11-10 15:40:37 190

原创 2020-10-27

怀着对大学的憧憬,肩负着期望,更是怀着对所报专业的好奇来到了期待已久的大学,开始我的大学生活。当上了第一节大数据的课后,经过老师的讲解让我对大数据有了一些了解,原来他就存在于我们身旁,只是我们不知道,他一直都在为我们服务着。大数据具有4V特征,velocity:速度,速率,更快的volume:体积value:价值(指过滤出有价值的信息)variety:类型,数据的结构(分为:有结构的数据,半结构的数据,无结构的数据)还认识了容量度量的最小单位bit还认识了一些常用的度量单位:bit、B、KB、M

2020-10-27 18:27:57 99

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除