dhuz32632-CSDN博客

转载 spark streaming 踩过的那些坑

系统背景spark streaming + Kafka高级API receiver目前资源分配（现在系统比较稳定的资源分配），独立集群 --driver-memory 50G --executor-memory 8G --num-executors 11 --executor-cores 5...

2018-11-27 11:12:00 423

转载 spark streaming基于Kafka的开发

spark streaming使用Kafka数据源进行数据处理，本文侧重讲述实践使用。一、基于receiver的方式在使用receiver的时候，如果receiver和partition分配不当，很容易造成数据倾斜，使个别executor工作繁重，拖累整体处理速度。receiver线程分配和partition的关系：假如topic A，分配了3个receiver，topic A有5个pa...

2018-11-27 11:10:00 115

转载 Linux备份-删除指定日期内文件

#!/usr/bin/env bashsource /etc/profileecho " *************** start filter *************** "# get befor six month last day#m0=$(date -d "$(date -d 'month' +%Y%m01) -1 day" +%Y%m%d)#echo ${m0}#m1=...

2018-11-27 11:05:00 173

转载 Linux笔记：定时任务和文件操作

查看定时任务crontab -l注册定时任务crontab -e然后就像vim 一样编辑自己的定时任务。如：* * * * * . /home/hadoop/timer/check_job.sh >> /home/hadoop/timer/logs/check_job.log定时任务解析*和*之间...

2018-11-27 10:57:00 104

转载 Spark 静态内存管理

作者编辑：杜晓蝶，王玮，任泽Spark 静态内存管理详解一、内容简介 spark从1.6开始引入了动态内存管理模式，即执行内存和存储内存之间可以互相抢占。spark提供两种内存分配模式，即：静态内存管理和动态内存管理。该系列文章分别对这两种内存管理模式的优缺点以及设计原理进行了分析。该篇文章主要针对spark1.6静态内存管理进行了分析与说明。动态内存管理以及其他的调优文章...

2018-11-27 10:51:00 103

转载 Spark 动态(统一)内存管理模型

作者编辑：王玮，胡玉林一.回顾在前面的一篇文章中我们介绍了spark静态内存管理模式以及相关知识https://blog.csdn.net/anitinaj/article/details/80901328在上一篇文章末尾，我们陈述了传统spark静态内存管理模式的局限性：（1）没有适用于所有应用的默认配置，通常需要开发人员针对不同的应用进行不同的参数配置。比如根据任务的执行逻辑，调...

2018-11-27 10:49:00 115

转载机器学习中用来防止过拟合的方法有哪些

雷锋网(公众号：雷锋网)按：本文作者 qqfly，上海交通大学机器人所博士生，本科毕业于清华大学机械工程系，主要研究方向机器视觉与运动规划，会写一些好玩的内容在微信公众号：Nao(ID：qRobotics)。本文整理自知乎回答：机器学习中用来防止过拟合的方法有哪些？给《机器视觉与应用》课程出大作业的时候，正好涉及到这方面内容，所以简单整理了一下（参考 Hinton 的课程）。按照之前的套...

2018-11-27 10:45:00 389

转载序列化和反序列化的底层实现原理是什么

序列化和反序列化作为Java里一个较为基础的知识点，那你能说一下序列化和反序列化底层是如何实现的吗？一、基本概念1、什么是序列化和反序列化（1）Java序列化是指把Java对象转换为字节序列的过程，而Java反序列化是指把字节序列恢复为Java对象的过程；（2）序列化：对象序列化的最主要的用处就是在传递和保存对象的时候，保证对象的完整性和可传递性。序列化是把对象转换成有序...

2018-07-02 15:12:00 104

转载 String replaceAll-正则匹配-截取以指定字符开头，以指定字符结尾的字符串

scala代码块截取以某个字符开头，以某个字符结尾的字符串1 def main(args: Array[String]): Unit = {2 val s = "{{a61,a2,a3},{b1,b2,b3},{c1m,.,kkl,c2,c3}}"3 val reg = Pattern.compile("\\{(\\w+?)...

2018-03-27 10:33:00 2231

转载 kafka数据可靠性深度解读

1 概述Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统，后成为Apache的一部分，它使用Scala编写，以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。Kafka凭借着自身的优势，越来越受到互联网企业的青睐，唯品会也采用Kafka作为其内部核心消息引擎之一。K...

2018-03-22 12:01:00 99

转载 hashMap 工作原理

HashMap的工作原理是近年来常见的Java面试题。几乎每个Java程序员都知道HashMap，都知道哪里要用HashMap，知道Hashtable和HashMap之间的区别，那么为何这道面试题如此特殊呢？是因为这道题考察的深度很深。这题经常出现在高级或中高级面试中。投资银行更喜欢问这个问题，甚至会要求你实现HashMap来考察你的编程能力。ConcurrentHashMap和其它同步...

2017-10-17 17:15:00 91

转载海量数据处理算法—Bloom Filter

1. Bloom-Filter算法简介 Bloom-Filter，即布隆过滤器，1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中。 Bloom Filter（BF）是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。Bloom Filter...

2017-09-26 17:49:00 129

转载 Bloom Filter

哈希 hash原理Hash （哈希，或者散列）函数在计算机领域，尤其是数据快速查找领域，加密领域用的极广。其作用是将一个大的数据集映射到一个小的数据集上面（这些小的数据集叫做哈希值，或者散列值）。一个应用是Hash table（散列表，也叫哈希表），是根据哈希值 (Key value) 而直接进行访问的数据结构。也就是说，它通过把哈希值映射到表中一个位置来访问记录，以...

2017-09-24 21:56:00 81

转载 Spark在Executor上的内存分配

spark.serializer (default org.apache.spark.serializer.JavaSerializer ) 建议设置为 org.apache.spark.serializer.KryoSerializer，因为KryoSerializer比JavaSerializer快，但是有可能会有些Object会序列化失败，这个时候就需要显示的对序列化失败的类...

2017-09-01 14:42:00 343

转载 linux shell脚本监控进程是否存在

用shell脚本监控进程是否存在不存在则启动的实例，先上代码干货：12345678#!/bin/shps -fe|grep processString |grep -v grepif [ $? -ne 0 ]thenecho "start process....."elseecho "run...

2017-08-31 10:31:00 127

转载 Java并发编程：线程池 - 实例

代码块： 1 public class test { 2 public static void main(String[] args) { 3 test t = new test(); 4 ThreadPoolExecutor executor = new ThreadPoolExecutor(5, 10, 200,...

2017-08-16 17:31:00 105

转载 Java并发编程：线程池的使用

我们使用线程的时候就去创建一个线程，这样实现起来非常简便，但是就会有一个问题：　　如果并发的线程数量很多，并且每个线程都是执行一个时间很短的任务就结束了，这样频繁创建线程就会大大降低系统的效率，因为频繁创建线程和销毁线程需要时间。　　那么有没有一种办法使得线程可以复用，就是执行完一个任务，并不被销毁，而是可以继续执行其他的任务？　　在Java中可以通过线程池来达到这样的效果...

2017-08-16 17:18:00 100

转载搭建Kafka运行环境-Mac版

停止kafka服务：kafka_2.12-0.10.2.1> bin/kafka-server-stop.shkafka_2.12-0.10.2.1> bin/zookeeper-server-stop.shStep 1: 下载Kafka下载最新的版本并解压.>tar -xzf kafka_2.12-0.10.2.1.tgz>cd ka...

2017-08-03 18:37:00 104

转载 MySQL导入-导出数据库-mac版

MySQL导入-导出数据库-mac版导出数据库-表结构，和数据　　　mysqldump -u 账号 -p 数据库名表 > 文件名.sql　　　例如：mysqldump -u root -p testdatabase tablename > test.sql　　　输入密码即可导出表结构　　　mysqldump -u 账号 -p 数据库名...

2017-08-03 13:21:00 120

转载 Scala解析Json格式

Scala解析Json格式代码块Scala原生包　　　　导入包　　　　　　　　import scala.util.parsing.json._ 1 def main(args: Array[String]): Unit = { 2 3 def regJson(json:Option[Any]) = json match ...

2017-08-03 11:21:00 251

转载 Apache Spark 内存管理详解

Apache Spark 内存管理详解Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本，阅读本文需要读者有一...

2017-08-03 10:31:00 226

转载 map put

public class test { static Map<String, Map<String, Integer>> mapB = new HashMap<String, Map<String, Integer>>(); static Map<String, Integer> mapA = new HashMap...

2017-07-27 18:34:00 101

转载 List 排序

public static void main(String[] args) { List<Integer> date = new ArrayList<Integer>(); date.add(9); date.add(2); date.add(1); date.add(6); d...

2017-07-27 18:19:00 87

dhuz32632的博客