Jorocco-CSDN博客

原创 Oozie的简单使用

1、Oozie的介绍 Oozie是一个工作流引擎服务器,用于运行Hadoop Map/Reduce和Hive等任务工作流.同时Oozie还是一个Java Web程序,运行在Java Servlet容器中,如Tomcat中。Oozie以action为基本任务单位，可以将多个action构成一个DAG图（有向无环图Direct Acyclic Graph...

2019-05-26 16:27:16 5701

原创 Sqoop的简单使用

1、Sqoop的介绍 Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、oracle…)间进行数据的传递，可以将一个关系型数据库中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。一般情况下，是将数据分析的结果导出到关系型数据库中。2、Sqoop的安装步骤Sqoop选择版本...

2019-05-24 10:28:59 780

Spark1.6推出的RpcEnv、RpcEndPoint、RpcEndpointRef为核心的新型架构下的RPC通信方式，在底层封装了Akka和Netty，为未来扩充更多的通信系统提供了可能。RpcEnv是一个更宏观的Env，是Spark集群Rpc通信的基础服务环境,因此在集群启动时候所有的节点(无论Master还是Worker)都会创建一个RpcEnv，然后将该节点注册到RpcEnv中。R...

2019-01-16 11:00:22 845

转载 Spark2.2源码剖析——SecurityManager

SecurityManager主要对帐号、权限以及身份认证进行设置和管理。如果 Spark 的部署模式为 YARN，则需要生成 secret key （密钥）并存储 Hadoop UGI。而在其他模式下，则需要设置环境变量 _SPARK_AUTH_SECRET（优先级更高）或者 spark.authenticate.secret 属性指定 secret key （密钥）。最后SecurityM...

2019-01-15 13:46:13 1005

原创 Spark2.2源码剖析——SparkContext初始化及Spark环境创建

阅读指导：在《Spark2.2——SparkContext概述》一文中，曾经简单介绍了SparkEnv。本节内容将详细介绍SparkEnv的创建过程。在Spark中，凡是需要执行任务的地方就需要SparkEnv。在生产环境中，SparkEnv往往运行于不同节点的Executor中。但是由于local模式在本地执行的需要，因此在Driver本地的Executor也需要SparkEnv。Sp...

2019-01-15 12:22:50 698

原创 Spark2.2——MemoryManager

占个位

2019-01-15 11:33:08 417

转载 Spark2.2源码剖析——SparkContext

Spark应用程序的提交离不开Spark Driver，后者是驱动应用程序在Spark集群上执行的原动力。了解Spark Driver的初始化，有助于理解Spark应用程序与Spark Driver的关系。而Spark Driver的初始化始终围绕着SparkContext的初始化。SparkContext可以算得上是Spark应用程序的发动机引擎，轿车要想跑起来，发动机首先要启动。Sp...

2019-01-14 13:19:29 1195

原创 Spark2.0较于Spark1.x的更新之处

Spark Core&amp;Spark SQL API1、dataframe与dataset统一，dataframe只是dataset[Row]的类型别名，统一了Dataframe和Dataset两套API。从Spark 2.0开始，Dataframe就只是Dataset[Row]的一个别名，不再是一个单独的类了。无论是typed方法（map、filter、groupByKey等）还是unt...

2019-01-03 11:17:43 1724

原创 Java高并发系统设计及其优化策略——秒杀系统（二）

1、项目介绍该项目是基于SSM框架的一个秒杀系统，采用了CDN技术用于加载静态资源，redis缓存技术承载高并发获取商品信息，针对mysql数据库事务性访问采用了存储过程技术以支撑每秒数万的访问量。 2、技术要点 1、建表的时候采用联合主键，将seckil_id和user_phone作为联合主键可避免重复秒杀。 2、MD5加密秒杀接口，可以防止用户推测出秒杀地址 3、增加一个dto层用...

2018-09-06 22:42:22 1037

原创大数据项目（三）————电商模块三（四）

1、模块介绍Spark作业接收taskid，查询对应的MySQL中的task，获取用户指定的筛选参数；统计出指定日期范围内的，各个区域的top3热门商品；最后将结果写入MySQL表中。 2、需求分析 1、区域信息在哪里，各个城市的信息，城市是不怎么变化的，没有必要存储在hive里？MySQL，Hive和MySQL异构数据源使用，技术点 2、hive用户行为数据，和mysql城市信息，...

2018-09-06 22:42:12 4642

原创大数据项目（三）————电商模块四（五）

1、广告点击流量实时统计模块网站 / app，通常会给一些第三方的客户，打一些广告；也是一些互联网公司的核心收入来源；广告在网站 / app某个广告位打出去，在用户来使用网站 / app的时候，广告会显示出来；此时，有些用户可能就会去点击那个广告。广告被点击以后，实际上，我们就是要针对这种用户行为（广告点击行为），实时数据，进行实时的大数据计算和统计。每次点击一个广告以后，通常来说，网...

2018-09-06 22:42:02 3682 1

原创大数据项目（三）————电商模块二（三）

1、模块二介绍——页面单跳转化率页面单跳转化率，计算出来以后，还是蛮有用的，蛮有价值的。产品经理，可以根据这个指标，去尝试分析，整个网站，产品，各个页面的表现怎么样，是不是需要去优化产品的布局；吸引用户最终可以进入最后的支付页面；数据分析师，可以基于咱们的这个数据，做更深一步的计算和分析企业管理层，可以看到整个公司的网站，各个页面的之间的跳转的表现，如何？心里有数，可以适当调整...

2018-09-06 22:41:47 2219

原创 Spark（九）————数据倾斜解决

1、数据倾斜原理及现象分析在执行shuffle操作的时候，大家都知道，我们之前讲解过shuffle的原理。是按照key，来进行values的数据的输出、拉取和聚合的。同一个key的values，一定是分配到一个reduce task进行处理的。多个key对应的values，总共是90万。但是问题是，可能某个key对应了88万数据，key-88万values，分配到一个task上去面...

2018-09-06 22:41:36 627

原创 Spark（八）———— troubleshooting控制

1、控制shuffle reduce端缓冲大小以避免OOM map端的task是不断的输出数据的，数据量可能是很大的。但是，其实reduce端的task，并不是等到map端task将属于自己的那份数据全部写入磁盘文件之后，再去拉取的。map端写一点数据，reduce端task就会拉取一小部分数据，立即进行后面的聚合、算子函数的应用。每次reduece能够拉取多少数据，就由buffer...

2018-09-06 22:41:28 670

原创 Spark（七）————性能调优

1、分配更多的资源分配更多资源：性能调优的王道，就是增加和分配更多的资源，性能和速度上的提升，是显而易见的；基本上，在一定范围之内，增加资源与性能的提升，是成正比的；写完了一个复杂的spark作业之后，进行性能调优的时候，首先第一步，我觉得，就是要来调节最优的资源配置；在这个基础之上，如果说你的spark作业，能够分配的资源达到了你的能力范围的顶端之后，无法再分配更多的资源了，公司资源有限；那...

2018-09-06 22:41:08 999

原创大数据项目（三）————电商项目模块一（二）

1、用户访问Session介绍用户在电商网站上，通常会有很多的点击行为，首页通常都是进入首页；然后可能点击首页上的一些商品；点击首页上的一些品类；也可能随时在搜索框里面搜索关键词；还可能将一些商品加入购物车；对购物车中的多个商品下订单；最后对订单中的多个商品进行支付。用户的每一次操作，其实可以理解为一个action，比如点击、搜索、下单、支付用户session，指的就是，从用户第一次进...

2018-09-06 22:40:52 6708 2

原创大数据项目（三）————电商项目介绍（一）

1、项目介绍本项目主要用于互联网电商企业中，使用Spark技术开发的大数据统计分析平台，对电商网站的各种用户行为（访问行为、购物行为、广告点击行为等）进行复杂的分析。用统计分析出来的数据，辅助公司中的PM（产品经理）、数据分析师以及管理人员分析现有产品的情况，并根据用户行为分析结果持续改进产品的设计，以及调整公司的战略和业务。最终达到用大数据技术来帮助提升公司的业绩、营业额以及市场占有率的目标...

2018-09-06 22:40:14 16674 2

原创大数据项目（二）————某电信公司通话记录改造

1、项目介绍将通话记录数据由原来的oracle系统改造成使用大数据架构解决方案。主要使用hbase做通话数据的存储方案。需要将原有oracle数据导入到hbase中，以及新生成数据通过flume收集到kafka，再通过消费者存储到hbase数据库。hadoop+hbase+flume+zookeeper实现电信级海量通话日志数据的存储，随机访问与实时读写。通过hash技术对rowkey...

2018-09-06 22:40:02 3618

原创大数据项目（一）————生成团购标签

1、项目简介所谓的团购标签生成就是通过从消费者对商品的评价中统计提取关键词，并统计其消费者对该商品该指标的累积数量，并进行排序显示，类似于淘宝、美团等电商平台都有的大家印象之类的。 2、业务介绍1、从复杂的json数据格式中提取出评论标签项 2、统计每个评论标签项的数量 3、对统计出的评论标签按降序排序 4、回显标签3、功能实现3.1 提取评论标签项Revie...

2018-09-06 22:39:48 2372

原创 Java高并发系统设计及其优化策略——秒杀系统（一）

1、秒杀系统分析1.1秒杀系统业务分析1、秒杀系统的核心是对库存的处理，业务流程图如下所示 2、用户针对库存业务分析 1、减库存 2、记录购买明细（记录秒杀成功信息） 1）记录谁购买成功了 2）成功的时间/有效期 1.2 秒杀系统技术分析1、为什么需要事务？一旦用户秒杀成功系统需要做两步操作...

2018-09-06 22:36:42 5209

原创经典排序算法Java版实现

1、堆排序堆排序的基本思想是：将待排序序列构造成一个大顶堆，此时，整个序列的最大值就是堆顶的根节点。将其与末尾元素进行交换，此时末尾就为最大值。然后将剩余n-1个元素重新构造成一个堆，这样会得到n个元素的次小值。如此反复执行，便能得到一个有序序列了。package cn.ctgu.offer.sort;import java.util.Arrays;public class Hea...

2018-08-31 15:08:35 401

原创机器学习算法总结（三）

1、决策树决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种，分类树对离散变量做决策树，回归树对连续变量做决策树。1.2 决策树的学习过程一棵决策树的生成过程主要分为以下3个部分:特征选择：特征选择是指从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准，如何选择特征有着很多不同量化评估标准标准，从而...

2018-08-30 21:10:30 2064

原创机器学习算法总结（二）

1、KNN算法 KNN是通过测量不同特征值之间的距离进行分类。它的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别，其中K通常是不大于20的整数。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。在KNN中，通过计算对象间...

2018-08-30 19:36:55 861

原创机器学习算法总结（一）

1、TF-IDF文本相似度分析余弦相似度计算个体间的相似性，即将两个个体的特征向量化，通过余弦公式计算两者之间的相似性。通过计算模型公式可以明确的求出余弦相似度的值。那么对于我们写程序实现这个算法，就是把两个个体转换为向量，然后通过这个公式求出最终解。比如向量a(x1, x2, x3, x4, x5)，向量b(y1, y2, y3, y4, y5)。分子为(x1*y1)+(...

2018-08-30 16:29:29 6000 1

原创剑指Offer算法题及答案Java完整版（四）

43、输入一棵二叉搜索树，将该二叉搜索树转换成一个排序的双向链表。要求不能创建任何新的结点，只能调整树中结点指针的指向。TreeNode.javapackage cn.ctgu.offer.BinaryTreeAndList;public class TreeNode { int val = 0; TreeNode left = null; TreeNode r...

2018-08-22 14:53:50 420

原创剑指Offer算法题及答案Java完整版（三）

31、给定一个数组A[0,1,…,n-1],请构建一个数组B[0,1,…,n-1]，其中B中的元素B[i]=A[0]A[1]…A[i-1]*A[i+1]…*A[n-1]。不能使用除法。package cn.ctgu.offer;/* * 题目： * 给定一个数组A[0,1,...,n-1],请构建一个数组B[0,1,...,n-1] * 其中B中的元素B[i]=A[0]*A[1]*...

2018-08-22 11:39:25 500

原创剑指Offer算法题及答案Java完整版（二）

16、请设计一个函数，用来判断在一个矩阵中是否存在一条包含某字符串所有字符的路径，路径可以从矩阵中的任意一个格子开始，每一步可以在矩阵中向左，向右，向上，向下移动一个格子。如果一条路径经过了矩阵中的某一个格子，则之后不能再次进入这个格子。例如 a b c e s f c s a d e e 这样的3 X 4 矩阵中包含一条字符串”bcced”的路径，但是矩阵中不包含”abcb”路径，因为字符串的第...

2018-08-22 11:09:56 1229

原创剑指Offer算法题及答案Java完整版（一）

1、输入一个整数数组，实现一个函数来调整该数组中数字的顺序，使得所有的奇数位于数组的前半部分，所有的偶数位于位于数组的后半部分，并保证奇数和奇数，偶数和偶数之间的相对位置不变。package cn.ctgu.offer;/* * 输入一个整数数组，实现一个函数来调整该数组中数字的顺序，使得所有的奇数位于数组的前半部分 * 所有的偶数位于位于数组的后半部分，并保证奇数和奇数，偶数和偶数...

2018-08-22 10:39:23 2751

原创大数据项目（四）————用户画像

1、用户画像概述用来勾画用户（用户背景、特征、性格标签、行为场景等）和联系用户需求与产品设计的，旨在通过从海量用户行为数据中炼银挖金，尽可能全面细致的抽出一个用户的信息全貌，从而帮助解决如何把数据转为商业价值的问题。 1.1 用户画像数据来源用户画像数据来源中连个最终要的数据就是用户属性以及物品属性，有了这两个，我们就可以从用户-用户、用户-电影、电影-电影三方面展开相应的相似度计算...

2018-08-05 19:25:41 38676

原创安装nginx和ganglia

1、什么是nginx 2、在contos上安装nginx1.a)先安装G++$>sudo yum install gccb)安装pcre$>sudo yum install pcre pcre-devel openssl openssl-devel -yc)手动通过源代码编译安装nginx$>tar -xzvf nginx-1.6.3.tar.tz ...

2018-07-22 09:21:49 658

原创 Spark（六）————python API的调用以及几种模式的配置

1、python操作hbase1.1 配置 0.启动hbase集群如果时钟不同步，采用下面的方式进行同步处理。$>su root$>xcall.sh "ntpdate asia.pool.ntp.org"1.启动hbase的thriftserver，满足和第三方应用通信。$>hbase-daemon.sh start thrift22.查看we...

2018-07-10 11:24:14 1892

原创 Spark（五）————MLlib

1、Spark机器学习库特点[Estimator] 运行在包含了feature和label(结果)的dataFrame之上，对数据进行训练创建model。该模型用于以后的预测。[Transformer] 将包含feature的Dataframe变换成了包含了预测的dataframe.由Estimator创建的model就是Transformer。[Parameter] Est...

2018-07-06 11:23:51 942

原创 Spark（四）————SparkSQL和SparkStreaming

1、什么是SparkSQL SparkSQL模块能构建在Spark上运行sql语句，主要有DataFrame（数据框、表），它类似于构建在hadoop上的hive以及构建在hbase上的pheonix用于进行sql交互。使用类似SQL方式访问hadoop，实现MR计算。df = sc.createDataFrame(rdd);DataSet&lt;Row&gt; === Data...

2018-07-05 16:10:26 5024

原创 Spark（三）————作业提交流程

1、Spark核心API[SparkContext] 连接到spark集群,入口点.[RDD] 它是一个分区的集合. 弹性分布式数据集. 不可变的数据分区集合. 基本操作(map filter , persist) 分区列表 //数据应用给每个切片的计算函数 //行为到其他RDD的依赖列表 //依赖关系 (可...

2018-07-05 13:54:33 3194

原创 Spark（二）————RDD变换和RDD Action

1、什么是RDDRDD是Spark的基本数据结构，是不可变数据集。RDD中的数据集进行逻辑分区，每个分区可以单独在集群节点进行计算。可以包含任何java,scala，python和自定义类型。RDD是只读的记录分区集合。RDD具有容错机制。 Spark主要是内存处理计算，在job间进行数据共享，内存的IO速率高于网络和磁盘的10~100之间，而hadoop花费90%的时间用于读写数据，因...

2018-07-01 20:23:07 742

原创 Spark（一）————Spark介绍以及集群搭建

1、Spark的特点快如闪电的集群计算。大规模快速通用的计算引擎。速度比hadoop 100x,磁盘计算快10x。能使用java / Scala /R /python进行开发，提供80+算子(操作符)，容易构建并行应用。通用架构：组合SQL ，流计算 + 复杂分析。运行模式：Hadoop, Mesos, standalone, or in the cloud,local.S...

2018-07-01 19:34:02 599

原创 Scala基本语法（四）

1、语法基础//变量scala>var a = 100 //变量//常量scala>val a = 100 //常量，不能重新赋值。//定义类型scala>val a:String = "hello" ;scala>a = "world" //wrong//操作符重载 _ $scala...

2018-06-30 11:06:11 1601

原创 Hadoop————Storm强化

1、storm的特点storm是一个免费、开源、分布式、实时计算系统。吞吐量高，每秒每节点能达到百万元组。 storm是跨语言、可伸缩的，具有低延迟（秒级/分钟级）、容错的特点。storm与hadoop的对比storm hadoop---------------------------------------------实时流处理 ...

2018-06-28 21:07:43 960

原创 Hadoop————Kafka强化

1、kafka的特点分布式流处理平台。在系统之间构建实时数据流管道。以topic分类对记录进行存储，每个记录包含key-value+timestamp每秒钟百万消息吞吐量。producer //消息生产者consumer //消息消费者consumer group //消费者组kafka server //broke...

2018-06-25 20:39:00 1429

原创 Hadoop————flume强化

1、flume的特点收集、移动、聚合大量日志数据的服务。基于流数据的架构，用于在线日志分析。基于事件。在生产和消费者之间启动协调作用。提供了事务保证，确保消息一定被分发。Source 多种、Sink多种。可以有多级跃点。 Source，接受数据，类型有多种。 Channel，临时存放地，对Source中来的数据进行缓冲，直到sink消费掉。 Sink，从channel...

2018-06-25 20:07:41 404

空空如也

空空如也