大数据
定格我的天空
专注于Java分布式、微服务开发
展开
-
Sparkstreaming之KafKa持久化offsets到Zookpeer数据读取
SparkStreaming+Kafka的两种模式receiver模式和Direct模式Sparkstreming + kafka recevier模式理解receiver模式理解:在SparkStreaming程序运行起来后,Executor中会有receiver tasks接收kafka推送过来的数据。数据会被持久化,默认级别为MEMORY_AND_DISK_SER_2,这个级别也...原创 2019-10-16 10:16:29 · 291 阅读 · 0 评论 -
Spark实现ALS最小二乘法
ALS算法流程:初始化数据集和Spark环境切分测试机和检验集训练ALS模型验证结果检验满足结果,直接推荐商品,否则继续训练ALS模型数据集的含义数据根式 用户ID,产品ID,评分1,11,21,12,31,13,11,14,01,15,12,11,22,12,22,13,22,14,12,15,43,11,23,12,33,13,13,14,03...原创 2019-06-24 14:23:09 · 669 阅读 · 0 评论 -
Spark SQL实现自定义聚合函数
概述spark自定义聚合函数需要继承一个抽象类UserDefinedAggregateFunction,并需要重写属性和方法:inputSchema:函数的参数列表,不过需要写成StructType的格式bufferSchema:中间结果的类型,比如求和时,a、b、c相加,需要先计算a+b并保存结果ab,然后计算ab+c,这个ab就是中间结果。dataType:返回值结果类型,显示是Da...原创 2019-05-29 15:39:56 · 1205 阅读 · 0 评论 -
Spark实现自定义累计器
前述Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量。累机器相当于统筹大变量,常用于计数,统计。注意事项1、能不能将一个RDD使用广播变量广播出去?不能,因为RDD是不存储数据的。可以将RDD的结果广播出去。2、 广播变量只能在Driver端定义,不能在Executor端定义。3、 在Driver端可以修改...原创 2019-05-29 13:55:23 · 235 阅读 · 0 评论 -
Hbase参数调优
注: 前面两个是在hbase-env.sh文件中,其它的都是hbase-site.xml中HBase Master Maximum Java heap sizeHmaster进程最大使用堆空间大小,默认1G,如果内存充裕可调到2-4GRegionServers maximum Java heap sizeRegionServer进程最大使用堆空间大小,默认2G,Cloudera专家建议内存...原创 2019-05-31 14:53:54 · 661 阅读 · 0 评论 -
大数据之Azkaba任务调度
概述为什么需要工作流调度系统1.一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等2.各任务单元之间存在时间先后及前后依赖关系3.为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行Azkaban的适用场景任务依赖 -> 任务的结果这样的话,整个的执行过程都需要人工参加,并且得盯着各...原创 2019-05-24 09:42:22 · 1509 阅读 · 0 评论 -
Hive实战性能调优
概述Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Hive 构建在基于静态批处理的Hadoop 之上,Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此,Hive 并不能够在大规模数据集上实现低延迟快速的...原创 2019-05-31 08:44:10 · 235 阅读 · 0 评论 -
Hadoop实现100W数据取最大值
代码实现pom.xml文件配置 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-hdfs</artifactId> <version>2.7.3<...原创 2019-04-30 14:53:39 · 439 阅读 · 0 评论 -
CentOS7.0安装Hadoop伪分布集群
Hadoop简要介绍Hadoop 是Apache基金会下一个开源的分布式计算平台,它以分布式文件系统HDFS和MapReduce算法为核心,为用户提供了系统底层细节透明的分布式基础架构。Hadoop生态图安装包下载http://mirror.bit.edu.cn/apache/hadoop/common/或https://pan.baidu.com/s/1rkX6ZH9Yrp...原创 2019-04-29 09:44:14 · 738 阅读 · 0 评论 -
Hadoop按日期统计访问次数
MapReduce编程主要组件InputFormat类:分割成多个splits和每行怎么解析。Mapper类:对输入的每对<key,value>生成中间结果。Combiner类:在map端,对相同的key进行合并。Partitioner类:在shuffle过程中,将按照key值将中间结果分为R份,每一份都由一个reduce去完成。Reducer类:对所有的map中间结果,...原创 2019-04-10 09:18:36 · 2809 阅读 · 0 评论 -
K-近邻算法(KNN)
K-近邻算法(Knn)其原理为在一个样本空间中,有一些已知分类的样本,当出现一个未知分类的样本,则根据距离这个未知 样本最近的k个样本来决定。举例:爱情电影和动作电影,它们中都存在吻戏和动作,出现一个未知分类的电影,将根据以吻戏数量和动作数量建立的坐标系中距离未知分类所在点的最近的k个点来决定。算法实现步骤计算所有点距离未知点的欧式距离对所有点进行排序找到距离未知点最近...原创 2019-04-10 11:21:18 · 175 阅读 · 0 评论