spark
无恋-zx
简约的程序员生活
展开
-
Spark Mllib API 一览
Spark Mllib 介绍 classification 分类 贝叶斯,二元SVM分类,逻辑回归分类 clustering 聚类 k-means聚类,LDA主题模型 fpm 关联规则 FP-Grownth关联规则 inalg 矩阵,向量 矩阵,向量,线性代数计算 optimization 优化计算 梯度下降法,少内存拟牛顿法,最小二乘法 recommendation 推荐 ...原创 2018-03-23 21:21:53 · 986 阅读 · 0 评论 -
如何在通过RDD获取 spark程序读取的文件名
Way to get a Filename in Spark Streaming编写工具类object GetFileNameFromStream extends java.io.Serializable { def getFileName(file: RDD[String]) :String ={ file.toDebugString } }val source_file = ssc...原创 2018-09-13 18:41:12 · 1698 阅读 · 0 评论 -
SparkStreaming入门完整案例
package com.zx.daoimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.{Seconds, StreamingContext}import org....原创 2018-09-13 18:43:01 · 952 阅读 · 1 评论 -
SpringBoot项目通过httpClient调用SparkRestfulAPI提交spark作业到spark集群运行
package com.rlt.services.impl;import com.alibaba.fastjson.JSON;import com.rlt.entity.SparkConfEntity;import com.rlt.entity.SparkResultEntity;import com.rlt.services.DictService;import com.rlt.u...原创 2018-09-13 18:48:58 · 3749 阅读 · 0 评论 -
Spark RDDs vs DataFrames vs SparkSQL
Spark RDDs vs DataFrames vs SparkSQL简介Spark的 RDD、DataFrame 和 SparkSQL的性能比较。2方面的比较 单条记录的随机查找 aggregation聚合并且sorting后输出 使用以下Spark的三种方式来解决上面的2个问题,对比性能。 Using RDD’s Using DataFrame...原创 2018-09-13 19:30:58 · 185 阅读 · 0 评论 -
监控hdfs系统的文件状态
package com.zx.dao;import com.zx.utils.PropertiesUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hdfs.DFSInotifyEventInputStream;import org.apache.hadoop.hdfs.client.H...原创 2018-09-25 20:43:17 · 2118 阅读 · 1 评论 -
干货-java HDFS系统上解压多文件zip压缩包
package com.zx.utils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSyst...原创 2018-09-25 20:45:27 · 2466 阅读 · 1 评论 -
[HDFS-inotify]“IOException:客户端在读取文件后停止
1.我想写下一个在创建时在特定位置读取文件的代码(使用inotify) 所以我在github中修改了基于“hdfs-inotify-example”的示例代码https://github.com/onefoursix/ HDFS-的inotify-示例/斑点/主/ SRC /主/ JAVA / COM / onefoursix / HdfsINotifyExample.java2.当重...原创 2018-10-02 15:22:13 · 418 阅读 · 0 评论 -
Map的value值降序排序与升序排序(java)
Map的value值降序排序与升序排序(java) 本文为原创博客,仅供技术学习使用。未经允许,禁止转载程序package test;import java.util.Collections;import java.util.Comparator;import java.util.LinkedHashMap;import java.util.LinkedList;im...转载 2018-10-19 13:34:08 · 546 阅读 · 0 评论 -
java scala maven 构建打包pom.xml
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://原创 2018-10-26 12:50:54 · 430 阅读 · 0 评论 -
Java Scala 混合编程导致 编译失败 ,【找不到符号】问题解决
大致就是 工程里分了 java 代码 和 scala 代码。然后在java代码中 引用了 scala 的代码。 运行不报错。 但是打包就是一直报错。[ERROR] Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.1:compile (default-compile) on projec...转载 2018-10-26 12:51:50 · 1329 阅读 · 0 评论 -
Docker 搭建Spark_hadoop集群
Docker 搭建Spark 依赖singularities/spark:2.2镜像singularities/spark:2.2版本中Hadoop版本:2.8.2Spark版本: 2.2.1Scala版本:2.11.8Java版本:1.8.0_151拉取镜像:[root@localhost docker-spark-2.1.0]# docker pull singu...原创 2018-11-15 16:06:13 · 1414 阅读 · 0 评论 -
Spark Streaming+Kafka spark 写入 kafka
https://blog.csdn.net/jiachengwin/article/details/82706684转载 2018-11-20 17:24:05 · 672 阅读 · 0 评论 -
spark 学习记录 -- Spark中foreachPartition和partitions.foreach的区别
https://blog.csdn.net/fzh595408240/article/details/80327443原创 2018-11-16 14:46:48 · 419 阅读 · 0 评论 -
Spark中广播变量知识点
Spark中广播变量知识点1,为什么要使用广播变量?举一个简单的例子,我们要处理一份log文件,里面有ip地址。20090121000132095572000|125.213.100.123|show.51.com|/shoplist.php?phpfile=shoplist2.php&style=1&s通过切分我们可以拿到ip。现在要求我们通过这个ip得到这个ip...转载 2019-01-11 02:54:16 · 267 阅读 · 0 评论 -
spark-stream 读取静态文件几点注意
spark-streaming在读取hdfs或者本地目录下的静态文件时需要注意的几点:一、读取路径为读取文件所在的上一级文件夹,和所读取文件统计目录下的文件夹中的内容不会被读取(path路径只能写到文件夹,否则报空指针错误,但程序不会停止)二、读取文件数据时,把要处理的数据文件put或者mv到指定的文件加下,不然streaming没有数据输出三、spark-streaming对put或...转载 2018-09-13 16:24:37 · 440 阅读 · 0 评论 -
调研公司内部Spark集群能承受多少并发量
任务描述测试公司内部Spark集群能承受多少并发量 Spark集群分配参数节点数:5cpu:20核内存:40g硬盘:500g 每台节点分配参数cpu:4核内存:8g硬盘:100g 测试案例(通过spark集群自带WEBUI进行监控任务提交运行状态)1.编写测试程序1,无限循环通过Spark restful API 提交任务到spark集群...原创 2018-09-18 14:35:38 · 1487 阅读 · 0 评论 -
SparkSql_DataFrame操作大全
Spark-SQL之DataFrame操作大全张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。 本文中的代码基于Spark-1.6.2的文档实现。一、DataFrame对象的生成 Spark-SQL可以以其他RDD对象、parquet文件、json文件、hive表,以及通过J...转载 2018-04-09 13:50:53 · 215 阅读 · 0 评论 -
RDD转成DataFrame
RDD转换为DataFrame今天在使用spark处理movielens数据集时,由于要在数据集中添加一列,所以不能直接读取数据集生成DataFrame,需要在生成DataFrame之前预处理一下数据集添加一列。所以我就以RDD的方式读入数据,并作相应处理,处理后需要将RDD转换为DataFrame以方便使用ml的API。 将RDD转换为DataFrame有两种方式:利用java的反射机制。利用反...转载 2018-04-18 15:21:02 · 300 阅读 · 0 评论 -
spark远程debug调试
(一)Spark本地开发环境搭建与远程debug设置快速看完《Spark大数据处理 技术、应用与性能优化》前四章后,对Spark有了一个初步的了解,终于踏出了第一步,现在需要在Spark集群中做些测试例子,熟悉一下开发环境和开发的流程。本文主要总结了如何在本地使用Maven搭建开发环境以及如何进行远程debug。由于采用的Spark是今年5月24号才发布的Spark2.1.1,网上大多数例子都是S...转载 2018-06-05 17:32:58 · 2721 阅读 · 0 评论 -
Spark Scala 读取GBK文件的方法
1. 在生产环境下,很多文件是GBK编码格式的,而SPARK 常用的textFile方法默认是写死了读UTF-8格式的文件,其他格式文件会显示乱码 用如下代码实现读取GBK文件的方法import org.apache.hadoop.io.{LongWritable, Text}import org.apache.hadoop.mapred.TextInputFormatimport ...原创 2018-08-08 09:44:30 · 2053 阅读 · 0 评论 -
Spark隐藏接口
Spark隐藏接口Spark有一些隐藏的API, 官方没有暴露出来, 下面是一些示例, 可以方便开发获取job状态curl http://spark-cluster-ip:6066/v1/submissions/status/driver-20151008145126-0000 返回样例 { "action" : "SubmissionStatusResponse",...原创 2018-09-11 14:36:39 · 1363 阅读 · 0 评论 -
使用REST API提交Apache Spark Job
使用REST API提交Apache Spark Job使用Apache spark时,有时需要从群集外部按需触发Spark作业。我们可以通过两种方式在群集中提交Apache spark作业。Spark从Spark集群中提交要从spark集群中提交spark作业,我们使用spark-submit。下面是一个示例shell脚本,它提交了Spark作业。大多数参与者都是自我解释的。&l...原创 2018-09-11 15:05:54 · 668 阅读 · 0 评论 -
spark性能调优之提高并行度
spark性能调优之提高并行度并行度就是Spark作业中,各个stage的task数量,也就代表了Spark作业的在各个阶段(stage)的并行度。如果不调节并行度,导致并行度过低,会怎么样?假设,现在已经在spark-submit脚本里面,给我们的spark作业分配了足够多的资源,比如50个executor,每个executor有10G内存,每个executor有3个cpu core...原创 2018-09-06 14:08:01 · 706 阅读 · 0 评论 -
spark提交任务启动参数调优
//指定spark运行模式spark.master = spark://master:7707//指定spark程序运行内存spark.executor.memory = 2000M //指定spark申请管理的内存(executorMemory基于driverMemory调整)spark.driver.memory =8000M//指定一个executor占用cpu核数(一个节...原创 2018-09-06 14:29:42 · 1085 阅读 · 0 评论 -
加载HDFS系统上的输入法词库并使用spark集群进行过滤,转换,合并,生成最终预处理结果数据集
package com.rlt.daoimport java.io.{File, PrintWriter}import java.util.Dateimport com.rlt.utils.{FileUtils, HdfsUtil, MyDataTime, PropertiesUtils}import org.apache.hadoop.fs.{FileUtil, Path}imp...原创 2018-09-06 14:32:44 · 176 阅读 · 0 评论 -
Java Web提交任务到Spark
Java Web提交任务到Spark原文 https://blog.csdn.net/fansy1990/article/details/48001013相关软件版本:Spark1.4.1 ,Hadoop2.6,Scala2.10.5 , MyEclipse2014,intelliJ IDEA14,JDK1.8,Tomcat7机器:windows7 (包含JDK1.8,M...转载 2018-09-06 16:10:08 · 595 阅读 · 0 评论 -
spark的三种模式的详细运行过程
spark的三种模式的详细运行过程一、Standalone模式1、使用SparkSubmit提交任务的时候(包括Eclipse或者其它开发工具使用new SparkConf()来运行任务的时候),Driver运行在Client;使用SparkShell提交的任务的时候,Driver是运行在Master上2、使用SparkSubmit提交任务的时候,使用本地的Client类的main函数来...转载 2018-09-10 11:42:02 · 994 阅读 · 0 评论 -
Spark-Spark Streaming例子整理(一)
https://blog.csdn.net/awj321000/article/details/74223899原创 2018-09-18 10:24:00 · 1037 阅读 · 0 评论 -
调研 SparkStreaming API使用
本次调研案例1.使用SparkStreaming去周期性监测指定本地文件目录下是否有文件写入或创建,有则读入SparkRDD进行过滤,分词,计数并将统计结果写入本地2,使用SparkStreaming去周期性监测hdfs系统上指定目录下是否有文件新上传,有则读入SparkRDD进行过滤,分词,计数并将统计结果写入hdfs系统 调研结果1,2两个测试案例均测试成功 问题分...原创 2018-09-18 13:17:24 · 206 阅读 · 0 评论 -
Hadoop-LInux常用操作命令
hadoop fs -mkdir /tmp/input 在HDFS上新建文件夹 hadoop fs -put input1.txt /tmp/input 把本地文件input1.txt传到HDFS的/tmp/input目录下 hadoop fs -g...原创 2019-02-24 18:29:34 · 214 阅读 · 0 评论