![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
serenysdfg
菜鸟在成长
展开
-
flink入门了解
在线工程在机器学习场景下,在线离线处理也会面临一些问题。首先会将离线的数据进行预处理和特征工程(如红框标注所示),然后进行离线的模型训练,训练好的模型会推到线上做推理。推理模块加载模型后,在线的数据也会有进行预处理和特征工程的过程,将处理之后的数据喂给模型做在线推理。在机器学习领域除了离线的模型训练以外,还有在线的模型训练。如下图所示,我们通常会将预处理的数据写到一个 Message Queue 中(如 Kafka),然后进行 Online training,training 的过程是持续不断的,期间会原创 2020-09-01 15:14:09 · 476 阅读 · 1 评论 -
hive之函数篇
其他函数NVL判断是否为null,替换NVL(E1, E2)的功能为:如果E1为NULL,则函数返回E2,否则返回E1本身。NVL(isclick, 0) as isclick列转行函数collect_setcollect_set去除重复元素;collect_list不去除重复元素;需要进行group byselect phone,collect_list(user_id) ,collect_set(user_id)from agroup by phoneCOALESCE返回第一个非空原创 2020-07-03 20:50:39 · 235 阅读 · 0 评论 -
hive之数据倾斜
hive之数据倾斜如果大量数据都为空会导致数据倾斜放到同一个reduce执行影响效率• 有数据倾斜的时候进行负载均衡• hive.groupby.skewindata = false--表现1剩下几个task,执行的特别特别慢,前面的task,一般1s可以执行完5个;最后发现1000个task,998,999 task,要执行1个小时,2个小时才能执行完一个task。2有的task,就是会突然间,啪,报了一个OOM,JVM Out Of Memory,内存溢出--计算数据的时候,数据的分散度原创 2020-07-03 20:47:15 · 135 阅读 · 0 评论 -
hive之细碎篇
1、strict严格模式Hive配置中有个参数hive.mapred.mode,分为nonstrict,strict,默认是nonstrict如果该模式值为strict,将会阻止以下三种查询:(1)、对分区表查询,where中过滤字段不是分区字段。(2)、笛卡尔积join查询,join查询语句,不带on条件或者where条件。(3)、对order by查询,有order by的查询不带limit语句一般来说,查询分区表时,一定会在where子句中加上分区条件,指明查看哪个分区的数据。否则会报原创 2020-07-03 20:46:00 · 854 阅读 · 0 评论 -
hive优化
sql优化https://www.cnblogs.com/joechinochl/articles/6009143.html用IN来替换OR避免函数不使用子查询少用like 用limit分组禁止排序GROUP BY goods_id ORDER BY NULL;hive的查询注意事项以及优化总结 :优化暂时用1.count distinct的操作,先转成group,再count按照分区查询获取需要的字段2减少每个阶段的数据量,尽量用上分区字段,同时只选择后面需要使用到的列,最大限度原创 2020-07-03 20:40:09 · 137 阅读 · 0 评论 -
安装flink
安装jdk设置环境变量变量名:JAVA_HOME变量值:C:\jdk1.8.0_91 jdk路径变量名:CLASSPATH变量值:.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar; //前面有个"."变量名:Path变量值:%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;安装git安装flinkhttps://flink.apache.org/downloads.html选择1.7.1版本原创 2020-06-29 14:14:54 · 210 阅读 · 0 评论 -
presto
目录特点问题Hive SQL -> Presto SQL 常见问题Presto SQL优化当前影响查询效率的主要问题presto会比hive快,原因:Hive sql 转换 Presto sql 经常遇到的一些问题,降低转换成本。针对Presto sql的优化介绍,了解优化的基本原则以及常规的实践方式。了解存储格式对即席查询的影响,最终推动存储格式的优化。特点基于内存的分布式计算引擎(不是数据库) 多数据源接入(hive/mysql/sqlserv.原创 2020-06-22 10:57:44 · 419 阅读 · 0 评论 -
hadoop和spark详解
Hadoop部分参考《hadoop大数据实战手册-精英版》-有很多命令查找语句详细: https://blog.csdn.net/luanpeng825485697/article/details/80319552hadoop分为几大部分:yarn负责资源和任务管理、hdfs负责分布式存储、map-reduce负责分布式计算YARN总体上仍然是master/slave(主从)结构Hdfs...原创 2020-04-08 15:13:29 · 459 阅读 · 0 评论 -
spark的scala
List常用方法:https://www.jianshu.com/p/3a8fbc7b734escala基础:https://www.jianshu.com/p/bce2f1051750电影推荐实战:https://www.jianshu.com/p/0ae1a4f4a72f原创 2020-03-06 19:26:05 · 99 阅读 · 0 评论 -
spark题目整理
1、driver的功能是什么?1)一个Spark作业运行时包括一个Driver进程,也是作业的主进程,具有main函数和SparkContext的实例,是程序的人口点;2)功能:负责向集群申请资源,向master注册信息,负责了作业的调度,负责作业的解析、生成Stage并调度Task到Executor上。包括DAGScheduler,TaskScheduler。2、spark的有几种部...原创 2020-03-05 17:20:12 · 654 阅读 · 0 评论 -
HIVE和sql
函数coalesce()解释:返回参数中的第一个非空表达式(从左向右);Sql代码 select coalesce(a,b,c); 如果a==null,则选择b;如果b==null,则选择c;如果a!=null,则选择a;如果a b c 都为null ,则返回为null(没意义)。Hive-sql与SQL的区别:https://blog.csdn.net/zengmingen...原创 2019-09-14 17:40:10 · 441 阅读 · 0 评论 -
HIVE简单介绍和了解
用于解决海量日志数据的分析hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。元数据是一般是存储在MySQL这种关系型数据库上的,...转载 2019-08-26 21:04:42 · 178 阅读 · 0 评论 -
Spark SQL和特征处理
Spark数据处理方式主要有三种:RDD、DataFrame、Spark SQL三者的主要差异在于是否定义SchemaRDD的数据未定义Schema(也就是未定义字段名及数据类型)。使用上必须有Map/Reduce的概念,需要高级别的程序设计能力。但是功能也最强,能完成所有Spark功能。Spark DataFrame建立时必须定义Schema(定义每一个字段名与数据类型)Spar...原创 2020-03-05 15:50:12 · 433 阅读 · 0 评论 -
spark使用DataSet
本文中,我们介绍了Spark的基本概念,并通过spark shell演示了spark中的核心Api DataSet的使用。在后面的文章中将会介绍spark中两个重要的扩展库Spark SQL和StructruedStreaming等,它们为数据的处理提供了更加方便和强大的操作。Spark依然处于快速发展阶段中,其提供的功能可能随着版本的演进也会在不停的演进,就如RDD被DataSet替换,...原创 2020-03-05 15:23:14 · 573 阅读 · 0 评论 -
spark学习与资料
pyspark系列--pandas与pyspark对比https://zhuanlan.zhihu.com/p/34901585https://blog.csdn.net/Xw_Classmate/article/details/52194813mmlspark:https://github.com/Azure/mmlspark/blob/master/docs/lightg...原创 2019-09-14 17:37:21 · 136 阅读 · 0 评论 -
Spark介绍
Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,hadoopI/O的效率往往较低,从而影响了MapReduce的运行速度。Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,弥补MapReduce的不足。RDDRDD(Resilient Distributed Dataset)叫做弹性...原创 2020-03-05 01:27:55 · 537 阅读 · 0 评论 -
Hadoop介绍
hadoop和spark分布式文件系统HDFS,它存储 Hadoop 集群中所有存储节点上的文件。MapReduce并行计算框架,该引擎由 JobTrackers 和 TaskTrackers 组成。HBase: 类似Google BigTable的分布式NoSQL列数据库。Hive:数据仓库工具,定义了简单的类 SQL 查询语言HiveQL ,称为 HQLZookeeper...原创 2020-03-05 00:34:06 · 162 阅读 · 0 评论 -
hadoop安装
下载安装解压 tar -xvf hadoop设置环境变量 、安装jdksudo gedit hadoop-env.sh修改配置文件ssh配置原创 2020-03-04 22:42:15 · 118 阅读 · 0 评论