大数据
文章平均质量分 71
Steve_Abelieve
致虚极,守静笃。
展开
-
《大数据开发》环境安装
Hadoop环境安装(HDFS-MapReduce)Storm环境安装(Storm)Zookeeper环境安装(Zookeeper)Hbase环境安装(HBase)Hive环境安装(Hive)Kafka环境安装(Kafka)Flume环境安装(Flume)Hadoop2.0环境安装(Yarn)Spark环境安装(Spark)...原创 2021-06-19 17:09:47 · 273 阅读 · 0 评论 -
《大数据开发》Hive
Hive是基于 Hadoop 的一个数据仓库工具;提供Sql(hive Sql)查询功能;数据是存储在hdfs上,hive本身不存储数据,构建表的逻辑存在指定数据库(mysql )。本质是将 SQL 语句转换为 MapReduce 任务执行。离线大数据计算。可以将结构化的数据文件映射成为一张数据库表。官方文档流程图HiveSql与Sql相比Hive字段类型1. 建表三种方式直接建表法: create table movies (uid string,iid st原创 2021-06-19 15:00:15 · 357 阅读 · 0 评论 -
《大数据开发》数据类型+常用数据处理
数据类型从结构划分常见数据操作均值操作:作用衡量这个系统的平均值,可以做两个系统的比较。缺点:对异常数据敏感标准差操作:衡量这个系统的波动程度,可以做两个系统的比较。缺点:对异常数据敏感变异系数操作:均值/方差,可以用于不同系统的比较。切尾均值操作:作用衡量这个系统的平均值,可以做两个系统的比较,一定程度上解决数据异常。异常检测什么是异常(离群点):异常就是显著不同于这个系统的值,不属于该系统的范围。1.系统异常:属于合理的,但是确实发生了。如这个人身高2.3m。2.非系统异常:属原创 2021-06-19 11:32:24 · 459 阅读 · 0 评论 -
《大数据开发》MapReduce强化
1.wordCount任务:统计acticle.txt,每个单词出现个数。word_count_demo2.数据去重任务:对ip数据进行去重。192.168.70.49192.168.70.78192.168.70.49192.168.70.49192.168.70.23192.168.70.49192.168.70.49192.168.70.49192.168.70.25192.168.70.49192.168.70.49192.168.70.26192.168.70.原创 2021-06-19 11:21:38 · 199 阅读 · 0 评论 -
《大数据开发》Hadoop-HDFS
快速入门官方文档HadoopHadoop 是一个开源的, 可靠的(reliable), 可扩展的(scalable)分布式计算框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集(python java …)。可扩展: 从单个服务器可以横向扩张到数千台计算机,每台计算机都提供本地计算和存储。可靠的: 不依靠硬件来提供高可用性(high-availability),而是在应用层检测和处理故障,从而在计算机集群之上提供高可用服务。HDFSHadoop Distributed File Sy原创 2021-06-19 11:04:29 · 172 阅读 · 0 评论 -
《大数据》MapReduce练习
思考问题1.统计出IP的文件,哪个ip出现的次数最多,一行一个ip。如果文件很大,超过内存。2.给定a、b两个文件,各存放50亿个url,每个url各占64B,内存限制是4GB,请找出a、b两个文件共同的url?3.现在有一个非常庞大的URL库(100E),然后现在还有一个URL,(迅速)判断这个URL是否在这个URL库中?MapReduceMapReduce是一个处理海量数据计算的框架MapReduce框架解决了什么问题1.内部的任务调度2.高可用,HA3.节点间的通信问题MapRed原创 2021-06-19 10:32:01 · 419 阅读 · 0 评论