塞纳河畔的王子-CSDN博客

Spark知识小结Spark中的几个常用转换算子的区别及用法groupByKey()，reduceByKey()，aggregateByKey()，combineByKey()groupByKey()该函数是在key-value的pairs上进行transform的，返回的rdd是一个pairs类型，此时的values是一个迭代对象，函数根据具有相同key的value进行分组，返回相同key下values的迭代对象。reduceByKey()相对于groupByKey()而言，reduc

2020-05-24 10:57:42 368

原创 Flink

Apache Flink概述Flink 是构建在数据流之上的一款有状态的流计算框架，通常被人们称为第三代大数据分析方案第一代大数据处理方案：基于Hadoop的MapReduce 静态批处理 | Storm 实时流计算，两套独立的计算引擎，难度大（2014年9月）第二代大数据处理方案：Spark RDD 静态批处理、Spark Streaming（DStream）实时流计算（实时性差），统一的计算引擎，难度小（2014年2月）第三代大数据分析方案：Flink DataSet 批处理框架、Ap

2020-05-24 10:53:35 780 1

原创 Structured Streaming

Structured StreamingStructured Streaming是什么Structured Streaming是一个scalable和fault-tolerant的流处理引擎（泛指使用SQL操作Spark的流处理）该引擎构建在Spark SQL之上，使得用户可以用静态批处理的方式去处理流计算任务。Structured Streaming底层弃用Spark SQL引擎对流数据做增量和持续的更新计算，并且输出最终结果。用户可以使用 Dataset/DataFrame API完成流处理过程中的

2020-05-24 10:52:49 556

原创 Spark SQL

Spark SQLSpark SQL是构建在Spark RDD之上的一款ETL（Extract Transformation Load）工具，这类似于构建在MapReduce之上的1.x版本的Hive。同Spark RDD的不同之处在于Spark SQL的API可以给Spark计算引擎提供更多的信息（计算数据结构、转换算子），Spark计算引擎可以根据Spark SQL提供的信息优化底层计算任务。目前为止，Spark SQL提供了两种风格的交互式API：Dataset API/SQL脚本。Dataset

2020-05-24 10:52:07 404 2

原创 Spark Streaming

Spark DStreamDStream是什么DStream是构建在Spark RDD之上的一款流处理工具，意即Spark DStream并不是一个严格意义上的流处理，底层通过将RDD在时间轴上分解成多个小的 RDD-micro batch流 | 批处理计算类型数据量级计算延迟输入数据输出数据计算形式批处理MB=>GB=>TB几十分钟 | 几个小时固定输入（全量）固定输出最终终止流处理Byte级别 | 记录级别亚秒级延迟持续输入（增量）

2020-05-24 10:51:21 218

原创 Spark RDD

Apache Spark框架概述Apache Spark是一个快如闪电的统一的分析引擎（仅仅是一款分析引擎，不提供存储服务）快：相比较于第一代基于磁盘计算的离线分析框架MapReduce而言，Spark基于内存计算较快统一：Spark提供统一的API访问接口，实现了批处理和流处理的统一，并且具有ETL功能同时提供对大规模数据集的全栈式解决方案：批处理、流处理、SQL、Machine Learning、图形关系分析等计算速度快的原因使用先进的DAG（有向无环图）设计MapReduce：矢

2020-05-24 10:50:28 304

原创 Scala

Scala LanguageScala语言Scala是一门多范式的编程语言，能够以一种优雅的方式来解决现实问题，同时支持面向对象和面向函数的编程风格。虽然它是强静态类型的编程语言，但是它强大的类型推断能力，使其看起来就像是一个动态编程语言。Scala语言最终会被编译成java字节码文件，可以和JVM无缝集成，并且可以使用Scala调用Java的代码库。Scala编程语言除了自身的特性以外，目前比较流行的Spark计算框架也是使用Scala语言编写。Spark 和 Scala 能够紧密集成，例如，使用Sc

2020-05-24 10:49:34 279

原创 Hive

大数据课程Hive编程1. 引言什么是Hive1. Hive是Apache组织提供的一个基于Hadoop的数据仓库产品数据库 DataBase OLTP 数据量级小数据价值高数据仓库 DataWarehouse OLAP 数据量级大数据价值低2. Hive基于Hadoop 底层数据存储 HDFS 运算方式 MapReduce原有MapReduce处理相关操作时存在的问题MapReduce处理相关

2020-05-24 10:48:20 189

原创 Storm

Apache Storm一、概述http://storm.apache.org/Apache Storm是一款免费开源的分布式实时计算框架（流处理）Apache Storm可以非常容易并且可靠地处理无界的流数据，进行实时的分析处理Apache Storm支持多种编程语言（1.x版本Clodure 2.x版本Java重构）。适用场景：实时分析、在线机器学习、持续计算、分布式的RPC、ETL（数据仓库）。Storm性能极其优异：单个节点每秒能够处理百万条Tuple（类似于Kafka中的Record

2020-05-24 10:46:08 406

原创 Kafka

Kafka笔记一、概述http://kafka.apache.org/Apache Kafka® is a distributed streaming platform——分布式的流数据平台Kafka具备三项关键能力：发布订阅记录流（Record），类似于消息队列（MQ）或者企业级消息系统存储记录流，以一种容错的持久化方式实时处理加工流数据Kafka的应用场景：构建实时的流数据管道，可靠地在系统和应用间获取数据（MQ）构建实时的流数据应用，传输或者处理加工流数据Kafka中的

2020-05-24 10:45:20 808

原创 Flume

Apache Flume一、概述http://flume.apache.org/Flume是一个分布式的、可靠的、高可用的高效的日志数据收集、聚合以及传输系统，它简单和灵活的架构是基于数据流的。Flume具备强大的容错保证机制，有多种容错和恢复保证。Flume使用简单可扩展的数据模型允许开发在线分析处理应用。架构[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ux2oLmH0-1590288162930)(D:\Learnspace\training camp\day

2020-05-24 10:43:41 242

原创 HBase

一、概述http://hbase.apache.orgApache HBase是一个基于Hadoop的数据库，具有可靠、分布式的特点，适合结构化大数据的存储。Apache HBase是Google BigTable的开源实现，开源、分布式、数据多版本、基于列存储的非关系型数据库。HBase建立在Hadoop的HDFS的基础之上。列存储和行存储列存储和行存储指的是数据在存储介质中的组织方式关系型数据库（行存储）：Oracle、MySQL、DB2、SQL Server、MongoDB、Lexst等

2020-05-24 10:42:29 343

原创 Zookeeper

Apache Zookeeper一、概述http://zookeeper.apache.orgApache Zookeeper是一个可靠高效的分布式应用的服务协调系统，主要解决分布式系统存在的一些通用问题，比如分布式系统的集群管理、集群选举、配置中心、统一命名服务、分布式同步（分布式锁）等问题。架构Zookeeper关键词：一致、有头、数据树[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PYYfNa75-1590288005092)(D:\Learnspace

2020-05-24 10:41:02 184

原创 Hadoop

**Author： **李金辉Wechat：m04194514Hadoop笔记一、概述大数据大数据（Big Data）是指无法在一定时间范围内用常规软件工具进行捕捉、处理和管理的数据集合，需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的5V特点（IBM提出）：Volume（大量）Velocity（高速）Variety（多样）Value（低价值密度）Veracity（真实性）Hadoop是什么http://hadoop.ap

2020-05-24 10:34:13 725

原创集成maven插件方法

集成maven的相关插件：<plugins> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-compiler-plugin</artifactId> <...

2020-01-10 11:26:38 144

原创外汇基本术语

搞不懂这些基本术语，怎么能交易外汇？外汇交易中会涉及到很多专业的术语，这和我们平时说话有所不同，特别是新手在接触到这些术语的时候可能会不知道是什么意思，今天就为大家整理一下外汇交易中比较常见的外汇专用术语。外汇外汇交易是以一种外币兑换成另一种外币，即买入一种货币组合中一种货币的同时卖出另一种货币的外汇交易方式。外汇市场没有具体地点，没有中心交易所，而是通过银行、企业和个人间的电子网络，展开货...

2019-05-24 12:57:43 681

原创剖析人性的弱点

从人性的弱点剖析做交易失败的原因剖析人性弱点，交易者行为和心理，从而使自己成为一个真正的赚钱交易者人性弱点：贪婪和恐惧所有交易者的心理和行为都会受到贪婪和恐惧这二个人性弱点的影响，交易的结果基本上都与自己的愿望相背离，赚钱的欲望越强烈，结果却是越赚不到钱。1.交易者的贪婪：因为贪婪，交易者才会从事高风险的杠杆品种投资。贪婪总会让人想在最短的时间内赚取最多的钱，其行为表现在总想在最顶部卖出，...

2019-05-24 12:47:56 323

原创短线王必备技巧

短线王必备的3种T+0操作技巧，解套不用愁股市中被套的股民永远都占大多数，所以解套是在股市永恒的话题。股票被套后肯定会想法解套，但解套方法那么多，到底用哪一种好呢？死扛解套？直接卖出解套？还是其他的解套方法？这要取决于个人的操作习惯以及行情走势，这里向大家介绍的解套方法是T+0解套法，希望能给大家带来一定的帮助。简单说说常用的几种t+0模式：1、受外盘或者个股利好高开，高开一般在10点之前会...

2019-05-24 12:46:31 1446

原创短线操作坚持“五不碰”

一、错阴斩杀错阴斩杀，由两根大阴线组成。第二根大阴线为大幅高开又大幅低走，收盘价比第一根大阴线的收盘价还要低。如此形成两根错综连接的大阴线，K线形态如图所示。错阴斩杀，顾名思义，错综连接的两根大阴线斩杀投资者，这是股价将继续下跌的标志。很多投资者以为第一根大阴线预示着空方力量衰减，股价将见底.在第二天股价高开，并有小幅上冲的动作后，空方马上展开了无情的进攻，将多头的上涨梦击碎，股价大幅下挫，...

2019-05-24 12:45:08 475

原创波段操作精华

教你快速掌握波段操作精华，操作十拿九稳我们操作股票无非是想找到一个大牛股操作，在股票市场中，股票是有波段的，每个股票都会经历过这样的牛熊，如果我们掌握了这套波段，合理的看懂趋势波段去操作，这样既简单，有省时间。下面我将给大家讲解一下如何应用波段选股，希望能够帮助大家。资本市场的多空博弈的激烈程度无异于战场上生死的较量，保全实力选准时机集中兵力重拳出击，方能赢得战机。利润最大化永远是投资者参与市...

2019-05-24 12:42:57 1650

原创 TK线技术分析

如何通过技术分析提前判断K线假突破？技术分析只是一种分析方法，和其他任何分析方法一样，都无法预先知道，未来市场会怎么走，如果可以预先知道这个是假突破，或者你说你有80%的可能性预先知道某个节点是假突破，那么你应该在某个高点或者低点持有反向的挂单（sell limit or buy limit），同时挂好止损单，防止出现这20%的小概率事件。事实上，你无法估计出接下来假突破的概率有多大，说白了，...

2019-05-24 12:39:59 711

qq_38078738的博客

原创 python

原创 Spark知识小结