Spark API Spark API主要有两个抽象部件组成:Spark Context和RDD,应用程序通过这两个部件和Spark进行交互,连接到Spark集群并使用相关资源。1.Spark Context是定义在Spark库中的一个类,作为Spark库的入口,包含应用程序 main( ) 方法的Driver program通过Spark Context对象访问Spark,因为Spark Context对象表示...
Spark工作原理 面试:掌握Java开发熟悉HDFS/HBase/Hive/MapReduce/spark,有丰富的分布式编程经验;熟悉Spark Streaming和Spark SQL;熟悉Core Java,熟悉Java IO, NIO, 多线程编程, 熟悉JVM运行机制和内存管理,网络协议;熟练掌握Linux操作系统,熟悉shell等脚本编程;有在Spark相关项目中应用Java或Python语言...
数据湖 什么是数据湖?数据湖是一个集中式存储库,允许您以任意存储规模存储所有结构化或非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 - 从控制面板和可视化到大数据处理,实时分析和机器学习,以指导做出更好的决策 。用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。EDL,企业级数据湖(原始数据的保存区)。...
Bootstrap Bootstrap概念:Bootstrap是Twitter退出的一个用前端开发发的开源框架,是一个做网页的框架(目前最流行的web前端框架),就是说你只需要写HTML标签就可以调用它的类,就可以快速的做一个高大上的网页(非常漂亮的样式网页)。使用:bootstrap对css样式进行了简单的封装,通过class呈现给开发者使用,是开发更为便捷,但是仍需要了解class如何被实现。容器:...
Hive窗口函数 窗口函数:窗口函数指的就是每一条数据的窗口 OVER(),如果over()里面没有约束,则表示整张表的窗口(全表)。over():指定分析函数工作的数据窗口大小,这个数据窗口大小可能回随着行的变化而变化current row:当前行,UNBOUNDED PRECEDING 表示从前面的起点,UNBOUNDEDFOLLOWING 表示到后面的终点n preceding: 往前 n 行数据...
Hive行列式转换 Hive行转列coacat(string A/col,string B/col…):返回输入字符串连接后的结果,支持人一个输入字符串;//查询语句select concat(deptid,dname) from dept;//返回结果就是连接多个列select concat(deptid,",",dname) from dept;concat_ws(separator,str1,st...
模板方法设计模式 Java23种设计模式(模板方法设计模式)模式的定义与特点:模板方法(Template Method)模式的定义下:定义了操作种的算法骨架,而将算法的一些步骤延迟到子类种,使得子类可以不改变算法结构的情况下重定义该该算法的某些特定步骤,它是一种类行为的模式。该模式下的主要优点如下:1.他封装了不变的部分,扩展可变的部分。他把认为是不变的部分的算法封装到父类种实现,而把不可变部分算法由子类继...
删除kafka中的表头数据(过滤器) 删除kafka中的表头数据(过滤器)先打开kafka命令//到kafka的bin目录下[root@bigdata bin]# cd /opt/bigdata/kafka010/bin///查看kafka中的表 [root@bigdata bin]# ./kafka-topics.sh --zookeeper 127.0.0.1:2181 -list__consumer_offsets...
kafka stream(kafka流处理) kafka stream(kafka流处理)问题:1)列转化问题(列转化行)user_attendees friend_id//打开zookeeper[root@bigdata bin]# zkServer.sh start//启动kafka[root@bigdata bin]# ./kafka-server-start.sh ../config/server.proper...
Springboot连接Python爬取网站信息 Python的requests模块的使用解决pip更新问题。 You are using pip version 19.0.3, however version 19.1 is available.当直接输入python -m pip install --upgrade pip更新还报错的时候,输入命令:python -m pip install -U pipCollecting p...
Spark 连接 KafKa Spark 连接 KafKa数据的流程与细节方向前几天把数据导入kafka中,现在要把数据从kafka中使用Scala将数据导入数据仓库;新建maven工程(基础步骤),在开百度中打开maven工程–>找到kafka的jar导入scala框架<dependency> <groupId>org.apache.kafka</groupId&g...
Python安装与Sublime Text3搭建Python开发环境及常用插件安装 Python安装与Sublime Text3搭建Python开发环境及常用插件安装第一步:下载Python安装包第二部:安装A)双击下载好的安装包,弹出如下界面:这里要注意的是,将Python加入到windows的环境变量中,如果忘记勾选,则需要向java一样配置环境变量。在这里我选择的是自定义安装,点击"自定义安装"惊醒下一步操作;B)进入到下一步之后,选择需要安装的组件,然...
scala伴生类与伴生对象 scala伴生类与伴生对象伴生对象快速入门的分析:object TestChildGame { def main(args: Array[String]): Unit = { /* *Scala中静态的概念--伴生对象 * Scala语言是完全面向对象的(万物皆对象)语言,所以并没有静态的操作 * (即在Scala中没有静态的概念(Java中publ...
基于spark Graph X的图形数据分析 基于spark Graph X的图形数据分析理解Spark Graph X数据模型理解SparkGraphX API理解Spark Graph X 图算法 PageRank理解Spark Graph X Prege许多大数据以大规模图或网络的形式呈现的许多非图结构的大数据Neo4j 专门用于图形数据库列数据库是按照列来存储数据,行式数据库式按照几张表来存储...
Spark SQL架构 Spark SQL架构Spark技术栈(Spark生态站):Spark SQL主要是对信息的处理,包括数据转化,数据抽取Spark周边有Python/Scala/java/MLLib/等等Spark可以集成Hive,Json,CSV,parqueet,JDBC,HBase,Other等等Catalyst优化器是Spark SQL的核心。Dataset与Frame的区别:???使用C...
安装Kafka与flume联合使用 安装Kafka与flume联合使用Kafka的作用:消峰(消息队列,先进先出)scala写的消息队列,常用于日志。消息队列简单理解就是生产者把实时性不强的数据丢入队列,消费者从队列中取出并处理。比如秒杀时可以把非常多的请求写入队列,再依次取出。很多程序都需要写日志,可以先写入kafka,再依次写入数据库,可以提高主程序性能和解耦Kafka是linkedin开源的MQ系统,主要特点是基于Pu...
双向链表二叉树 //双向链表二叉树private E unlinkFirst(Node<E> f){ //assert f == first && f != null; final E element = f.item; final Node<E> next = f.next; f.item = null;//上一个设为null f.next = null;//...
Spark 算子 Spark大数据计算框架Spark(火花)出现不全是代替Map Reduce,里面有批处理(Spark运行在内存中,Map Reduce运行在硬盘中,根据自身情况选择适应的开发环境(比如:机器的数量,配置,资金等等))了解Hadoop发展历史:2011年发布1.0版本,2012年发布稳定版,2013年发布2.X版本(里面出现了Yarn,得以重用)2012年版本中MR的缺点:mr基于数据集...
聊大数据概括 聊大数据概括1.需求分析(业务)做各种业务的最终目标是什么?分割子目标 (特征方面考虑)【建模(提取特征–> 有业务专家和算法专家来做的)】2.数仓设计应用(国内是应用,国外是数据文件(数据壶))(日志、记录等等)近源层明细层里面有几种表: 1.维度表(观察一件事情有很多个角度(维度升维)维度多的时候需要降维(维度降维)) 2.事...
门清Scala高阶函数 门清Scala高阶函数,函数是Scala中最重要的重点把函数体看成变量工厂方法 工厂变量 简单工厂object MyhHello { //高阶函数最简单的工厂模式 var humber = ()=>{ //可以连接数据库,HBase,masql等等 "我是汉堡包" } var checken = ()=> "我是鸡翅膀" def ...