江南阁

数据世界 数据人生

自定义博客皮肤

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Spark运行问题

问题一 ERROR storage.DiskBlockObjectWriter: Uncaught exception while reverting partial writes to file /hadoop/application_1415632483774_448143/spark-l...

2019-09-10 11:03:44

阅读数 32

评论数 0

shell脚本高效轮询某文件夹

基本概念: Inotify 是一个 Linux特性,它监控文件系统操作,比如读取、写入和创建。Inotify 反应灵敏,用法非常简单,并且比 cron 任务的繁忙轮询高效得多。 Inotify: #include <stdio.h> #include &l...

2019-04-03 20:01:12

阅读数 286

评论数 0

Java高效轮询某文件夹

有三种方式: 1、java common.io 内部实现是遍历的方式,小文件夹的效率还好,比如我测试60G的目录,就很慢很慢了。 2、jdk 7 的watch service //经测试基本不可用。在一个40g的很深的目录下去新建和删除文件5分钟都没结果。主要原因是需要对每一个Path进行注册监控...

2019-04-03 19:54:42

阅读数 248

评论数 0

根据经纬度计算两点距离的Java计算方式

不多说,直接上代码 public class LocationUtils { private static double EARTH_RADIUS = 6378.137; private static double rad(double d) { return d * Math...

2019-03-13 20:12:58

阅读数 318

评论数 0

Nodejs时间格式

获取标准时间格式的时、分、秒函数: Date.prototype.format = function (fmt) { var o = { "M+": this.getMonth() + 1, //月份 ...

2019-03-11 15:05:37

阅读数 140

评论数 0

SpringBoot 微服务相关

有时间补充……

2019-03-01 16:51:32

阅读数 20

评论数 0

Node.js定时函数

//定时任务进行数据更新 var schedule = require('node-schedule');//引入定时模块 var rule = new schedule.RecurrenceRule(); var times = []; for (var i = 0; i &lt...

2019-02-28 09:49:23

阅读数 49

评论数 0

Memleak测试Node.js内存泄漏

内存泄漏(Memory Leak)是指程序中己动态分配的堆内存由于某种原因程序未释放或无法释放,造成系统内存的浪费,导致程序运行速度减慢甚至系统崩溃等严重后果。因此我们需要排查一切可能导致内存泄漏的原因。 下载地址:https://sourceforge.net/projects/memleak...

2019-02-28 09:43:10

阅读数 73

评论数 0

HBase优化

高可用 在 HBase 中 Hmaster 负责监控 RegionServer 的生命周期,均衡 RegionServer 的负载,如果 Hmaster 挂掉了,那么整个 HBase 集群 将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以 HBase 支持对 Hmaster 的高可用配...

2019-01-21 16:06:14

阅读数 9

评论数 0

Spark Streaming--背压机制

背压机制 默认情况下,Spark Streaming通过Receiver以生产者生产数据的速率接收数据,计算过程中会出现batch processing time > batch interval的情况,其中batch processing time 为实际计算一个批次花费...

2019-01-21 16:05:53

阅读数 245

评论数 0

Spark SQL--执行模式

DSL风格语法 scala> val peopleDF = rdd.map{x => val strs=x.split(",");People(strs(0),strs(1).trim.toInt)}.toDF p...

2019-01-04 15:32:56

阅读数 58

评论数 0

Spark RDD--数据类型转换

将RDD,DataFrame,DataSet之间进行互相转换 RDD -》 DataFrame 直接手动转换 scala> val people = spark.read.json("/opt/apps/Spark/spark-2.2.2-bi...

2019-01-04 15:32:07

阅读数 2038

评论数 0

Spark RDD--1 WordCount

简单的WordCount用scala编写(用的本地模式) package com.jiangnan.spark import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object ...

2019-01-04 15:31:34

阅读数 17

评论数 0

Spark RDD--2 计算日志相关数据

需求: 日志格式: IP 命中率 响应时间 请求时间 请求方法 请求URL    请求协议 状态吗 响应大小 referer 用户代理 1、计算每一个IP的访问次数 (114.55.227.102,9348)  2、计算每一个视频访问的IP数 视频:141081.mp4 独立IP数:2393 ...

2019-01-04 15:30:41

阅读数 115

评论数 0

Spark SQL--商品订单案例

需求 统计所有订单中每年的销售单数、销售总额 统计每年最大金额订单的销售额 统计每年最畅销货品(哪个货品销售额amount在当年最高,哪个就是最畅销货品) 我们首先需要在scala里连接hive,然后创建这三个表,导入数据。创建以及导入数据与操作Hive一致。在Spark SQL中,可以...

2019-01-04 15:29:50

阅读数 126

评论数 0

Spark RDD-DataFrame-DataSet三者异同

三者的共性 RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利 三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才会开始遍历运算,极端情况下,如果代码里面有创建、转换,但是...

2019-01-04 15:28:34

阅读数 77

评论数 0

Hive优化

Fetch 抓取 Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如: SELECT * FROM student;在这种情况下,Hive 可以简单地读取 student 对应的存储目录下 的文件,然后输出查询结果到控制台。 hive.fetch.ta...

2019-01-04 15:28:10

阅读数 20

评论数 0

Spark Streaming--3 Spark 与 Kafka集成

引入jar包依赖 <dependency> <groupId>org.apache.spark</groupId> <arti...

2019-01-02 17:19:11

阅读数 55

评论数 0

Spark Streaming--2 自定义数据源

通过继承Receiver,并实现onStart、onStop方法来自定义数据源采集。 需要自己开一个sockect,,然后输入内容。 nc -lk master 8888 package com.jiangnan.spark import java.io.{BufferedReader,...

2019-01-02 17:18:54

阅读数 191

评论数 0

Spark Streaming--1 文件默认数据源

文件数据流:能够读取所有HDFS API兼容的文件系统文件,通过fileStream方法进行读取         Spark Streaming 将会监控 dataDirectory 目录并不断处理移动进来的文件,记住目前不支持嵌套目录。 文件需要有相同的数据格式 文件进入 dataDirec...

2019-01-02 17:18:40

阅读数 33

评论数 0

提示
确定要删除当前文章?
取消 删除