hadoop学习笔记

Map_reduce

Tez     基于yarn 的map/reduceDAG 框架

它把Map/Reduce过程拆分成若干个子过程,同时可以把多个Map/Reduce任务组合成一个较大的DAG任务,减少了Map/Reduce之间的文件存储。同时合理组合其子过程,也可以减少任务的运行时间。

Storm   处理数据流,实时处理系统

Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域

Spark    在内存中计算,数据量不大逻辑复杂时较好

l  不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

l  Spark streaming :spark用来处理数据流,实时数据的模块

Yarn     recoursemanager

Flume   日志采集、聚合和传输的日志收集系统,

支持在日志系统中定制各类数据发送方,用于收集数据;

Kafka   Kafka是一个可持久化的分布式的消息队列

分布式发布订阅消息系统

 

 

 

flume+kafka+storm

flume+hdfs

HIVE 操作

类sql查询语言,称为HQL,可以将sql语句转换成mapreduce任务进行运行

1. 子查询相当于表名,使用from 关键字需要指定真实表名或表别名。

2. hive支持union(已验证)但性能会比较差 ,支持union all 

3. 子查询中使用union all 时,在子查询里不能使用count、sum 等 聚合函数 

4. 两表直接进行unionall 可以使用count、sum 等聚合函数 

5. 两张表进行unionall 取相同的字段名称,可正常输出指定数据内容,且结果为两张表的结果集

Load data [local] inpath ‘path’  overwrite|into table tb_name[partition (par)]

Insert overwrite|into table tb_name[partition (par)] select .. From ..

join(只支持等值关联)

•      left|right|full [outer] join

•      left semi join

•      cross join    -- 笛卡儿乘积

分区表动态分区生成

•       set hive.exec.dynamic.partition=true;

•       set hive.exec.dynamic.partition.mode=nonstrict;

•       set hive.exec.max.dynamic.partitions.pernode=10000;

开窗函数 over

row_number()over(partition by start_cityorder by route_id) as row,

rank()over(partition by start_city order byroute_id) as rnk,

dense_rank()over(partition by start_cityorder by route_id) as drnk

cube

根据GROUP BY的维度的所有组合进行聚合(其中的GROUPING__ID,表示结果属于哪一个分组集合)

select substr(create_time,1,7) asmonth,substr(create_time,1,10) as day,count(distinct order_id) asorders,grouping__id

from kn1_ord_team_order_detail

where create_time>='2015-06-01'

group bysubstr(create_time,1,7),substr(create_time,1,10)

with cube

order by grouping__id

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大学生就业服务平台管理系统按照操作主体分为管理员和用户。管理员的功能包括学生档案管理、字典管理、试卷管理、试卷选题管理、试题表管理、考试记录表管理、答题详情表管理、错题表管理、法律法规管理、法律法规收藏管理、法律法规留言管理、就业分析管理、论坛管理、企业管理、简历管理、老师管理、简历投递管理、新闻资讯管理、新闻资讯收藏管理、新闻资讯留言管理、学生信息管理、宣传管理、学生管理、职位招聘管理、职位收藏管理、招聘咨询管理、管理员管理。用户的功能等。该系统采用了Mysql数据库,Java语言,Spring Boot框架等技术进行编程实现。 大学生就业服务平台管理系统可以提高大学生就业服务平台信息管理问题的解决效率,优化大学生就业服务平台信息处理流程,保证大学生就业服务平台信息数据的安全,它是一个非常可靠,非常安全的应用程序。 管理员权限操作的功能包括管理新闻信息,管理大学生就业服务平台信息,包括考试管理,培训管理,投递管理,薪资管理等,可以管理新闻信息。 考试管理界面,管理员在考试管理界面中可以对界面中显示,可以对考试信息的考试状态进行查看,可以添加新的考试信息等。投递管理界面,管理员在投递管理界面中查看投递种类信息,投递描述信息,新增投递信息等。新闻信息管理界面,管理员在新闻信息管理界面中新增新闻信息,可以删除新闻信息。新闻信息类型管理界面,管理员在新闻信息类型管理界面查看新闻信息的工作状态,可以对新闻信息的数据进行导出,可以添加新新闻信息的信息,可以编辑新闻信息信息,删除新闻信息信息。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值