- 博客(21)
- 资源 (1)
- 收藏
- 关注
转载 Spark修炼之道(进阶篇)——Spark入门到精通:第十节 Spark Streaming(一)
本节主要内容本节部分内容来自官方文档:http://spark.apache.org/docs/latest/streaming-programming-guide.html#mllib-operationsSpark流式计算简介 Spark Streaming相关核心类 入门案例1. Spark流式计算简介Hadoop的MapReduce及Spark SQL等只能进行离线计算,...
2018-08-13 08:54:56 385
转载 Spark修炼之道(进阶篇)——Spark入门到精通:第九节 Spark SQL运行流程解析
1.整体运行流程使用下列代码对SparkSQL流程进行分析,让大家明白LogicalPlan的几种状态,理解SparkSQL整体执行流程// sc is an existing SparkContext.val sqlContext = new org.apache.spark.sql.SQLContext(sc)// this is used to implicitly conve...
2018-08-13 08:53:36 507
转载 Spark修炼之道(进阶篇)——Spark入门到精通:第八节 Spark SQL与DataFrame(一)
本节主要内宾Spark SQL简介 DataFrame1. Spark SQL简介Spark SQL是Spark的五大核心模块之一,用于在Spark平台之上处理结构化数据,利用Spark SQL可以构建大数据平台上的数据仓库,它具有如下特点: (1)能够无缝地将SQL语句集成到Spark应用程序当中 (2)统一的数据访问方式 DataFrames and SQL provide...
2018-08-13 08:51:33 567
转载 Spark修炼之道(进阶篇)——Spark入门到精通:第七节 Spark运行原理
作者:周志湖 网名:摇摆少年梦 微信号:zhouzhihubeyond本节主要内容Spark运行方式 Spark运行原理解析本节内容及部分图片来自: http://blog.csdn.net/book_mmicky/article/details/25714419 http://blog.csdn.net/yirenboy/article/details/47441465 这两篇...
2018-08-13 08:50:21 307
转载 Spark修炼之道(进阶篇)——Spark入门到精通:第六节 Spark编程模型(三)
作者:周志湖 网名:摇摆少年梦 微信号:zhouzhihubeyond本节主要内容RDD transformation(续) RDD actions1. RDD transformation(续)(1)repartitionAndSortWithinPartitions(partitioner) repartitionAndSortWithinPartitions函数是rep...
2018-08-13 08:48:46 362
转载 Spark修炼之道(进阶篇)——Spark入门到精通:第五节 Spark编程模型(二)
作者:周志湖 网名:摇摆少年梦 微信号:zhouzhihubeyond本文主要内容RDD 常用Transformation函数1. RDD 常用Transformation函数(1)union union将两个RDD数据集元素合并,类似两个集合的并集 union函数参数: /** * Return the union of this RDD and another...
2018-08-13 08:46:58 455
转载 Spark修炼之道(进阶篇)——Spark入门到精通:第四节 Spark编程模型(一)
作者:周志湖 网名:摇摆少年梦 微信号:zhouzhihubeyond本节主要内容Spark重要概念 弹性分布式数据集(RDD)基础1. Spark重要概念本节部分内容源自官方文档:http://spark.apache.org/docs/latest/cluster-overview.html(1)Spark运行模式目前最为常用的Spark运行模式有: - loca...
2018-08-13 08:44:38 391
转载 Spark修炼之道(进阶篇)——Spark入门到精通:第三节 Spark Intellij IDEA开发环境搭建
作者:周志湖 网名:摇摆少年梦 微信号:zhouzhihubeyond本节主要内容Intellij IDEA 14.1.4开发环境配置 Spark应用程序开发1. Intellij IDEA 14.1.4开发环境配置Intellij IDEA 功能十分强大,能够开发JAVA、Scala等相关应用程序,在依赖管理 智能提示等方面做到了极致,大家可以到:http://www.je...
2018-08-13 08:43:57 320
转载 Spark修炼之道(进阶篇)——Spark入门到精通:第二节 Hadoop、Spark生成圈简介
作者:周志湖 网名:摇摆少年梦 微信号:zhouzhihubeyond本节主要内容Hadoop生态圈 Spark生态圈1. Hadoop生态圈原文地址:http://os.51cto.com/art/201508/487936_all.htm#rd?sukey=a805c0b270074a064cd1c1c9a73c1dcc953928bfe4a56cc94d6f67793fa...
2018-08-13 08:43:11 694
转载 Spark修炼之道(进阶篇)——Spark入门到精通:第一节 Spark 1.5.0集群搭建
作者:周志湖 网名:摇摆少年梦 微信号:zhouzhihubeyond本节主要内容操作系统环境准备 Hadoop 2.4.1集群搭建 Spark 1.5.0 集群部署注:在利用CentOS 6.5操作系统安装spark 1.5集群过程中,本人发现Hadoop 2.4.1集群可以顺利搭建,但在Spark 1.5.0集群启动时出现了问题(可能原因是64位操作系统原因,源码需要重新编译...
2018-08-13 08:41:00 708
转载 elasticsearch 性能调优
所有的修改都可以在elasticsearch.yml里面修改,也可以通过api来修改。推荐用api比较灵活1.不同分片之间的数据同步是一个很大的花费,默认是1s同步,如果我们不要求实时性,我们可以执行如下: $ curl -XPUT 'http://localhost:9200/twitter/' -d '{ "settings" : { "index" : ...
2018-08-09 14:17:06 292
原创 计算并发用户数的五种方法
一、经典公式1: 一般来说,利用以下经验公式进行估算系统的平均并发用户数和峰值数据 1)平均并发用户数为 C = nL/T 2)并发用户数峰值 C‘ = C + 3*根号C C是平均并发用户数,n是login session的数量,L是login session的平均长度,T是值考察的时间长度 C’是并发用户数峰值 举例1,假设系统A,该系...
2018-08-08 10:57:59 3787
转载 Spark学习之路 (一)Spark初识
Spark学习之路 (一)Spark初识一、官网介绍1、什么是Spark官网地址:http://spark.apache.org/Apache Spark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看,Spark也用于AI人工智能spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的、...
2018-08-08 09:20:07 740 1
原创 使用Docker+Jenkins自动构建部署
环境阿里云ESC,宿主机服务器安装Docker,在安全规则中确认8080端口开启。客户端mac运行jenkins运行jenkins容器在主机上创建目录,并添加读写权限以便jenkins应用运行时读写文件,如:$ mkdir -p /var/jenkins_node$ chmod 777 /var/jenkins_node拉取jenkins镜像: docker pull jenk...
2018-08-06 09:01:09 434
原创 前端跨域访问利器
什么是跨域跨域是指从一个域名的网页去请求另一个域名的资源。比如从www.baidu.com 页面去请求 www.google.com 的资源。跨域的严格一点的定义是:只要协议,域名,端口有任何一个的不同,就被当作是跨域为什么浏览器要限制跨域访问呢?原因就是安全问题:如果一个网页可以随意地访问另外一个网站的资源,那么就有可能在客户完全不知情的情况下出现安全问题。比如下面的操作就有安全问...
2018-08-06 08:54:27 1193
转载 深入理解Hystrix之文档翻译
转载请标明出处: http://blog.csdn.net/forezp/article/details/75333088 本文出自方志朋的博客什么是Hystrix在分布式系统中,服务与服务之间依赖错综复杂,一种不可避免的情况就是某些服务将会出现失败。Hystrix是一个库,它提供了服务与服务之间的容错功能,主要体现在延迟容错和容错,从而做到控制分布式系统中的联动故障。Hystrix...
2018-08-04 13:39:23 199
转载 深入理解Ribbon之源码解析
转载请标明出处: http://blog.csdn.net/forezp/article/details/74820899 本文出自方志朋的博客什么是RibbonRibbon是Netflix公司开源的一个负载均衡的项目,它属于上述的第二种,是一个客户端负载均衡器,运行在客户端上。它是一个经过了云端测试的IPC库,可以很好地控制HTTP和TCP客户端的一些行为。 Feign已经默认使用...
2018-08-04 13:39:15 559
转载 史上最简单的SpringCloud教程 | 第十二篇: 断路器监控(Hystrix Dashboard)
转载请标明出处: http://blog.csdn.net/forezp/article/details/70217283 本文出自方志朋的博客在我的第四篇文章断路器讲述了如何使用断路器,并简单的介绍了下Hystrix Dashboard组件,这篇文章更加详细的介绍Hystrix Dashboard。一、Hystrix Dashboard简介在微服务架构中为例保证程序的可用...
2018-08-04 13:39:07 204
转载 深入理解Eureka之源码解析
转载请标明出处: http://blog.csdn.net/forezp/article/details/73017664 本文出自方志朋的博客Eureka的一些概念 Register:服务注册 当Eureka客户端向Eureka Server注册时,它提供自身的元数据,比如IP地址、端口,运行状况指示符URL,主页等。 Renew:服务续约 Eureka客户会每...
2018-08-04 13:38:58 220
转载 深入理解Feign之源码解析
转载请标明出处: 本文出自方志朋的博客什么是FeignFeign是受到Retrofit,JAXRS-2.0和WebSocket的影响,它是一个jav的到http客户端绑定的开源项目。 Feign的主要目标是将Java Http 客户端变得简单。Feign的源码地址:https://github.com/OpenFeign/feign写一个Feign在我之前的博文有写到如何用F...
2018-08-04 13:38:50 176
转载 史上最简单的SpringCloud教程 | 第十三篇: 断路器聚合监控(Hystrix Turbine)
转载请标明出处: http://blog.csdn.net/forezp/article/details/70233227 本文出自方志朋的博客上一篇文章讲述了如何利用Hystrix Dashboard去监控断路器的Hystrix command。当我们有很多个服务的时候,这就需要聚合所以服务的Hystrix Dashboard的数据了。这就需要用到Spring Cloud的另一个组件了...
2018-08-04 13:38:42 201
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人