spark
文章平均质量分 68
半_调_子
因为热爱
展开
-
华为大数据生态适配地图
FusionInsight MRS 生态地图原创 2022-04-25 15:29:01 · 1295 阅读 · 0 评论 -
大数据生态技术组件
1、离线查询引擎pig :数据流式处理 数据仓库系统,基于hadoop的数据流执行引擎,利用mapreduce并行处理数据,使用pig Latin语言表达数据流。Hive:HiveQL数据仓库系统 是构建在Hadoop之上的数据仓库,用于解决海量结构化的日志数据的统计问题,其语言结构HQL,类似于SQL,但又不完全相同。Spark SQL:PhoenixLucene/Solr/Elasticsearch:数据搜索引擎应用2、实时查询引擎Impalashark: spark的前原创 2022-04-18 10:41:14 · 3245 阅读 · 0 评论 -
hadoop平台编译安装
https://support.huaweicloud.com/prtg-hdp-kunpengbds/kunpenghadoophdp_02_0021.html原创 2021-05-13 20:10:12 · 178 阅读 · 0 评论 -
hadoop面试题
1、当前大数据技术的基础是由( C)首先提出的。(单选题,本题2分)A:微软B:百度C:谷歌D:阿里巴巴2、大数据的起源是(C)。(单选题,本题2分)A:金融B:电信C:互联网D:公共管理3、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是(C)。(单选题,本题2分)A:数据管理人员B:数据分析员C:研究科学家D:软件开发工程师4、(D)反映数据的精细化程度,越细化的数据,价值越高。(单选题,本题2分)A:规模B:活性C:关联度D:颗粒度5、数据清洗...原创 2021-03-07 22:45:58 · 3426 阅读 · 0 评论 -
spark 基础解析
什么是spark定义:spark是一种基于内存快速、通用、可扩展的大数据分析引擎。spark内置模块底层的调度器区分三种:基于独立调度器,yarn,mesos中间层:spark core提供几种类:spark sql ,spark streaming实时计算,spark mlib机器学习,spark graghx图计算spark core实现了spark的基本功能...原创 2020-03-10 16:46:24 · 420 阅读 · 0 评论 -
spark 高级数据分析
spark高级数据分析的代码的下载地址:https://github.com/sryza/aas(数据应用)就像香肠,最好别看见它们是怎么做出来的。第一章:大数据分析用数个千个特征和数十亿个交易来构建信息卡欺诈模型。向数百万用户智能地推荐数百万产品。通过模拟包含数百万金融工具的投资组合来评估金融风险。轻松地操作成千上万的人类基因的相关数据发现致病基因大数据时代:指我...原创 2020-03-10 10:33:10 · 480 阅读 · 0 评论