![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据开发专栏
在机器学习算法工程师和大数据开发方向的知识准备
StellaLiu萤窗小语
这个作者很懒,什么都没留下…
展开
-
map-reduce流程图
分布式处理之MapreduceMapReduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE)。这样做的好处是可以在任务被分解后,可以通过大量机器进行并行计算,减少整个操作的时间。但如果你要我再通俗点介绍,那么,说白了,Mapreduce的原理就是一个归并排序。适用范围:数据量大,但是数据种类小可以放入内存基本原理及要点:将数据交给不同的机器去处理,数据划分,结果归约。问题实例:The canonical example appli原创 2021-02-14 10:48:05 · 291 阅读 · 0 评论 -
hadoop搭建集群
安装好linux/boot 200M/swap 2g/ 剩余*安装VMTools关闭防火墙 sudo service iptables stop sudo chkconfig iptables off设置静态IP,改主机名编辑vim /etc/sysconfig/network-scripts/ifcfg-eth0改成=================================DEVICE=eth0TYPE=EthernetONBOOT=yes..转载 2020-11-29 08:43:42 · 112 阅读 · 0 评论 -
hadoop-大数据技术生态体系
大数据技术生态体系1)Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。2)Flume:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到原创 2020-11-29 08:15:55 · 192 阅读 · 0 评论 -
分布式处理之Mapreduce
分布式处理之MapreduceMapReduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE)。这样做的好处是可以在任务被分解后,可以通过大量机器进行并行计算,减少整个操作的时间。但如果你要我再通俗点介绍,那么,说白了,Mapreduce的原理就是一个归并排序。适用范围:数据量大,但是数据种类小可以放入内存基本原理及要点:将数据交给不同的机器去处理,数据划分,结果归约。问题实例:The canonical example appli原创 2020-11-29 07:18:30 · 393 阅读 · 0 评论 -
hive窗口函数及笔试题目总结
窗口函数一、函数介绍1、OVER():2、其他函数3、排序函数介绍二、over使用介绍1、数据准备2、查询购买顾客姓名及购买总人数–窗口大小为筛选后的数据集2.1 分组查询购买顾客姓名,但是没有顾客总数2.2 使用over计算购买总人数2.3 sql讲解:count(*) over()3、查询顾客的购买明细及 月购买总额-窗口分区大小3.1 购买明细3.2 购买明细及总额3.3 总额计算解析4、求每个用户购买明细及将cost按照日期进行累加4、其他参数介绍5、查看顾客上次的购买时间-lag函数使用6、查看顾转载 2020-11-28 15:26:17 · 882 阅读 · 0 评论 -
Hive查询及常用查询函数
Hive查询功能一、排序1.全局排序 (order by)2.每个MapReduce内部排序(Sort By)3.分区排序(Distribute By)4. Cluster By二、分桶(分文件)1.分桶表数据存储2. 分桶抽样查询函数空字段赋值NVLCASE WHEN行转列(多行转集合)CONCAT,列转行(集合拆多行)EXPLODE窗口函数(下一篇)总结查询功能提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就.原创 2020-11-28 14:41:38 · 442 阅读 · 0 评论