学习日记
江湖告级
只是个普普通通的大学生
展开
-
网络爬虫介绍
网络爬虫 网络爬虫(web crawler)也叫网页蜘蛛,网络机器人,是一种用来自动浏览万维网的程序或者脚本。爬虫可以验证超链接和HTML代码,用于网络抓取(Web scraping)。网络搜索引擎等站点通过爬虫软件更新自身的网站内容(Web content)或其对其他网站的索引。 爬虫访问网站的过程会消耗目标系统资源,因此在访问大量页面时,爬虫需要考虑到规划、负载等问题。 网络爬虫产生背景 随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search原创 2020-12-09 20:37:13 · 1272 阅读 · 0 评论 -
2020-11-17
Hadoop 3个核心组件: 分布式文件系统:Hdfs——实现将文件分布式存储在很多的服务器上(hdfs是一个基于Linux本地文件系统上的文件系统) 分布式运算编程框架:Mapreduce——实现在很多机器上分布式并行运算 分布式资源调度平台:Yarn——帮用户调度大量的mapreduce程序,并合理分配运算资源 HDFS的设计特点是: 1、大数据文件,非常适合上T级别的大文件或者一堆大数据文件的存储,如果文件只有几个G甚至更小就没啥意思了。 2、文件分块存储,HDFS会将一个完整的大文件平均分块存储到不原创 2020-11-17 15:43:18 · 72 阅读 · 0 评论 -
大数据生态系统
e原创 2020-11-10 14:42:11 · 708 阅读 · 1 评论 -
大数据学习记录(第一天)
大数据作为续云计算、物联网之后IT灵域有一次颠覆性概念,备受人们的关注。 大数据已经渗透到各行各业众多领域,对人类的社会生产和生活产生大量重大而深远的影响。 大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。具有4V特征。 4V即Velocity、Variety、Value、Volume。 Velocity表示实时处理、速度(速率),含实时数据、流数据、离线数据。 Variety表示多数据类型交叉分析,含结构化、非结构化、半结构化。 Value表示海量数据挖掘与原创 2020-10-27 21:24:58 · 128 阅读 · 1 评论