小狼_百度-CSDN博客

转载【mysql】关于命令load data local infile 配置

要支持命令load data local infile，应当在/etc/mysql/my.cnf中添加这样的设置:[plain] view plain copy[mysqld] #服务端配置 local-infle = 1 [mysql] #客户端配置 local-infile

2016-08-02 14:55:51 9442

转载分布式应用框架Akka快速入门

本文结合网上一些资料，对他们进行整理，摘选和翻译而成，对Akka进行简要的说明。引用资料在最后列出。1.什么是AkkaAkka 是一个用 Scala 编写的库，用于简化编写容错的、高可伸缩性的 Java 和 Scala 的 Actor 模型应用。官方网站（http://akka.io/）的介绍是：Akka is a toolkit and runtime for bu

2016-08-01 18:32:41 735

转载海量数据处理利器之布隆过滤器

看见了海量数据去重，找到停留时间最长的IP等问题，有博友提到了Bloom Filter，我就查了查，不过首先想到的是大叔，下面就先看看大叔的风采。一、布隆过滤器概念引入（Bloom Filter）是由布隆（Burton Howard Bloom）在1970年提出的。它实际上是由一个很长的二进制向量和一系列随机映射函数组成，布隆过滤器可以用于检索一个

2016-08-01 18:29:56 550

转载基于Redis的BloomFilter实战

声明：本文写作皆因个人兴趣，仅供学习目的，限于本人水平有限，不当之处请指正，欢迎讨论。欢迎转载，转载请注明出处。本文地址： http://www.imsiren.com/archives/988 离线数据处理与实时数据处理有很大的不同，其中一个例子就是去重。在聚数据中，访问UV和购买UV都需要实时的去重。离线处理的时候，我们可以通过count(groupby)或者count(

2016-08-01 18:28:35 1987

转载 JVM 调优 —— GC 长时间停顿问题及解决方法

零. 简介垃圾收集器长时间停顿，表现在 Web 页面上可能是页面响应码 500 之类的服务器错误问题，如果是个支付过程可能会导致支付失败，将造成公司的直接经济损失，程序员要尽量避免或者说减少此类情况发生。一. 并发模式失败（concurrent mode failure）并发模式失败日志： 2016-02-21T13:53:0

2016-07-29 13:29:50 21631 1

转载 Spark Streaming 订单关联案例剖析

Apache Spark 是加州大学伯克利分校的 AMPLabs 开发的开源分布式轻量级通用计算框架。由于 Spark 基于内存设计，使得它拥有比 Hadoop 更高的性能(极端情况下可以达到 100x)，并且对多语言(Scala、Java、Python)提供支持。其一栈式设计特点使得我们的学习和维护成本大大地减少，而且其提供了很好的容错解决方案。本文将详细地介绍如何使用 Spark St

2016-07-28 17:21:42 378

转载 JVM实用参数（八）GC日志

原文地址：https://blog.codecentric.de/en/2014/01/useful-jvm-flags-part-8-gc-logging/作者：PATRICK PESCHLOW，译者：Greenster 校对：梁海舰本系列的最后一部分是有关垃圾收集（GC）日志的JVM参数。GC日志是一个很重要的工具，它准确记录了每一次的GC的执行时间和执行结果，通过分析GC日志

2016-07-28 16:04:31 251

转载 JVM实用参数（七）CMS收集器

HotSpot JVM的并发标记清理收集器(CMS收集器)的主要目标就是：低应用停顿时间。该目标对于大多数交互式应用很重要，比如web应用。在我们看一下有关JVM的参数之前,让我们简要回顾CMS收集器的操作和使用它时可能出现的主要挑战。就像吞吐量收集器(参见本系列的第6部分),CMS收集器处理老年代的对象,然而其操作要复杂得多。吞吐量收集器总是暂停应用程序线程，并且可能是相当长的一段时间，

2016-07-28 15:43:28 325

转载 JVM实用参数（六）吞吐量收集器

在实践中我们发现对于大多数的应用领域，评估一个垃圾收集(GC)算法如何根据如下两个标准：吞吐量越高算法越好暂停时间越短算法越好首先让我们来明确垃圾收集(GC)中的两个术语:吞吐量(throughput)和暂停时间(pause times)。 JVM在专门的线程(GC threads)中执行GC。只要GC线程是活动的，它们将与应用程序线程(application threads)争

2016-07-28 15:24:48 595

转载 JVM实用参数（四）内存调优

理想的情况下，一个Java程序使用JVM的默认设置也可以运行得很好，所以一般来说，没有必要设置任何JVM参数。然而，由于一些性能问题（很不幸的是，这些问题经常出现），一些相关的JVM参数知识会是我们工作中得好伙伴。在这篇文章中，我们将介绍一些关于JVM内存管理的参数。知道并理解这些参数，将对开发者和运维人员很有帮助。所有已制定的HotSpot内存管理和垃圾回收算法都基于一个相同的堆内存划分

2016-07-27 16:54:57 1128

转载 JVM 实用参数-5 新生代垃圾回收

本部分，我们将关注堆(heap) 中一个主要区域，新生代(young generation)。首先我们会讨论为什么调整新生代的参数会对应用的性能如此重要，接着我们将学习新生代相关的JVM参数。单纯从JVM的功能考虑，并不需要新生代，完全可以针对整个堆进行操作。新生代存在的唯一理由是优化垃圾回收(GC)的性能。更具体说，把堆划分为新生代和老年代有2个好处：简化了新对象的分配(只在新生代分配内

2016-07-26 15:43:37 1165

转载用jstack诊断java应用故障

公司的生产系统大多是java应用，特别是java消费者，前段时间频繁出现故障。消息队列会突然堵塞，查看消费者日志，发现处理延时明显延长，而此时网络无丢包。最后多方排查，是java消费者运行出现死锁。这种问题可以通过jstack来dump获取java stack和native stack信息查明问题。如：jstack [-l] pid提供一个测试的例子：/**

2016-07-26 14:37:34 597

转载 JVM性能调优监控工具jps、jstack、jmap、jhat、jstat、hprof使用详解

JDK本身提供了很多方便的JVM性能调优监控工具，除了集成式的VisualVM和jConsole外，还有jps、jstack、jmap、jhat、jstat、hprof等小巧的工具，本博客希望能起抛砖引玉之用，让大家能开始对JVM性能调优的常用工具有所了解。

2016-07-26 14:01:49 647

转载 Young GC日志分析

JVM的GC日志的主要参数包括如下几个：-XX:+PrintGC 输出GC日志-XX:+PrintGCDetails 输出GC的详细日志-XX:+PrintGCTimeStamps 输出GC的时间戳（以基准时间的形式）-XX:+PrintGCDateStamps 输出GC的时间戳（以日期的形式，如 2013-05-04T21:53:59.234+0800）-

2016-07-26 12:14:02 2636

转载数据库分库分表(sharding)系列(五) 一种支持自由规划无须数据迁移和修改路由代码的Sharding扩容方案

2016-07-19 17:52:00 802

转载 Spark闭包与序列化

本文原文出处: http://blog.csdn.net/bluishglc/article/details/50945032 严禁任何形式的转载，否则将委托CSDN官方维护权益！Spark的官方文档再三强调那些将要作用到RDD上的操作，不管它们是一个函数还是一段代码片段，它们都是“闭包”，Spark会把这个闭包分发到各个worker节点上去执行，这里涉及到了一个容易被忽视的问题：闭包的“

2016-07-13 13:47:37 1700

转载 Spark编程指引(二)---------------RDD介绍，闭包对RDD的影响，如何打印RDD。

RDD OperationsRDD支持两种操作类型：转换，从现有数据集创建一个新的数据集。动作：在数据集上进行计算，并对驱动程序返回一个值。比如，map是一个转换，它对数据集中的每个元素执行一个函数，然后返回一个新的RDD代表执行结果。reduce是一个动作，它通过一些函数聚合RDD中的所有元素，然后对驱动程序返回最后的结果。（虽然也有一个并行的reduceByKe

2016-07-13 13:46:45 400

转载 spark内核揭秘-14-Spark性能优化的10大问题及其解决方案

问题1：reduce task数目不合适解决方案：需要根据实际情况调整默认配置，调整方式是修改参数spark.default.parallelism。通常的，reduce数目设置为core数目的2-3倍。数量太大，造成很多小任务，增加启动任务的开销；数目太小，任务运行缓慢。所以要合理修改reduce的task数目即spark.default.parallelism问题2：s

2016-07-12 15:57:27 569

转载 spark使用KryoRegistrator java代码示例

转载引用自：http://www.cnblogs.com/tovin/p/3833985.html最近在使用spark开发过程中发现当数据量很大时，如果cache数据将消耗很多的内存。为了减少内存的消耗，测试了一下 Kryo serialization的使用代码包含三个类，KryoTest、MyRegistrator、Qualify。我们知道在Spark默认使用的是Jav

2016-07-12 15:55:56 619

转载 Spark 性能相关参数配置详解－Storage篇

作者：刘旭晖 Raymond 转载请注明出处Email：colorant at 163.comBLOG：http://blog.csdn.net/colorant/随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。

2016-07-11 16:37:48 619

转载处理大型Excel文件的Java类库： X4J Analytic

x4j-analytic是一个用于Java编程语言的开源XLSX格式模板引擎API。X4J可嵌入在Java应用程序库，作为实现完全成熟的报表解决方案。X4J拥有很高的性能，能够使用恒定内存在数秒内产生一百万行的Excel报表。X4J主输入/输出格式是XLSX，Excel是作为设计编辑模板。也可以导出其他格式的报表：PDF，HTML，XML，CSV。package x4j.sampl

2016-07-08 09:56:57 1709

转载 POI使用SAX处理大量数据的xlsx格式的Excel文件

POI在处理Excel方面确实比较方便，但是当Excel数据量比较大的时候，使用POI处理就会导致java.lang.OutOfMemoryError: Java heap space的错误，当有大量数据写入xlsx文件时，POI为我们提供了SXSSFWorkBook类来处理，这个类的处理机制是当内存中的数据条数达到一个极限数量的时候就flush这部分数据，再依次处理余下的数据，这个在大多数场景能

2016-07-08 09:55:40 2031

转载 Spark函数讲解：aggregateByKey

该函数和aggregate类似，但操作的RDD是Pair类型的。Spark 1.1.0版本才正式引入该函数。官方文档定义：Aggregate the values of each key, using given combine functions and a neutral "zero value". This function can return a different resu

2016-07-01 14:31:29 4969

转载在Spark中尽量少使用GroupByKey函数

为什么建议尽量在Spark中少用GroupByKey，让我们看一下使用两种不同的方式去计算单词的个数，第一种方式使用reduceByKey ；另外一种方式使用groupByKey，代码如下：01#User:过往记忆02#Date:2015-05-18

2016-07-01 14:03:08 935

转载 Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题

来自： http://www.cnblogs.com/yurunmiao/p/5195754.html目前平台使用Kafka + Flume的方式进行实时数据接入，Kafka中的数据由业务方负责写入，这些数据一部分由Spark Streaming进行流式计算；另一部分数据则经由Flume存储至HDFS，用于数据挖掘或机器学习。HDFS存储数据时目录的最小逻辑单位为“小时”，为了保证数据计算

2016-06-30 15:39:40 2585

转载 Spark SQL利器：cacheTable/uncacheTable

Spark相对于Hadoop MapReduce有一个很显著的特性就是“迭代计算”（作为一个MapReduce的忠实粉丝，能这样说，大家都懂了吧），这在我们的业务场景里真的是非常有用。假设我们有一个文本文件“datas”，每一行有三列数据，以“\t”分隔，模拟生成文件的代码如下：执行该代码之后，文本文件会存储于本地路径：/tmp/datas，它包含1000行测试数据，将其上传

2016-06-30 15:03:21 2433

转载 spark：map mapPartitions flatmap

mapmap是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。举例：scala> val a = sc.parallelize(1 to 9, 3)scala> val b = a.map(x => x*2)scala> a.collectres10: Array[Int] = Array(1, 2

2016-06-30 12:01:17 1236

转载 Spark算子：RDD基本转换操作(5)–mapPartitions、mapPartitionsWithIndex

mapPartitionsdef mapPartitions[U](f: (Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: ClassTag[U]): RDD[U]该函数和map函数类似，只不过映射函数的参数由RDD中的每一个元素变成了RDD中每一个分区的迭代器。

2016-06-30 12:00:16 494

转载影响到Spark输出RDD分区的操作函数

下面的操作会影响到Spark输出RDD分区（partitioner）的：　　cogroup, groupWith, join, leftOuterJoin, rightOuterJoin, groupByKey, reduceByKey, combineByKey, partitionBy, sort, mapValues (如果父RDD存在partitioner), flatMapValue

2016-06-30 11:12:16 847

转载使用SparkSQL实现多线程分页查询并写入文件

一、由于具有多张宽表且字段较多，每个宽表数据大概为4000万条，根据业务逻辑拼接别名，并每张宽表的固定字段进行left join 拼接SQL。这样就能根据每个宽表的主列，根据每个宽表的不同字段关联出一张新的集合。由于下来要进行分页查询，如果要使用SparkSQL进行分页查询，需要增加序号列，那么就在刚才的Sql之前增加一句 create table tableName as SELECT ROW

2016-06-24 10:49:10 5195 2

转载 Deep learning：十三(Softmax Regression)

在前面的logistic regression博文Deep learning：四(logistic regression练习) 中，我们知道logistic regression很适合做一些非线性方面的分类问题，不过它只适合处理二分类的问题，且在给出分类结果时还会给出结果的概率。那么如果需要用类似的方法（这里类似的方法指的是输出分类结果并且给出概率值）来处理多分类问题的话该怎么扩展呢？本次要讲

2016-06-18 11:06:15 298

转载 Spark性能调优——扩展篇

http://blog.csdn.net/sbq63683210/article/details/51690971 好的spark 学习资源

2016-06-18 11:03:09 2906

转载为什么叫二项分布，又为什么叫多项分布？

二项式分布是随机独立事件的可能结果是2个，对于这2个结果的概率分布；因此，多项式分布是随机独立事件的可能结果是多个（大于2个），对于多个可能结果的概率分布；伯努利分布是随机独立事件的结果为0和1两种情况的概率分布比较简单容易理解的文章，貌似是电子书的一章告诉你为什么叫二项分布，又为什么叫多项分布。二项分布如果掷一枚硬币，正面向上的结局的概率为0.5 。反面向上的结局的概率也是0.5。那么出现正面向上事件或者反面向上事件的概率就是0.5+0.5=1，即二者必居其一。如果掷

2016-06-17 09:03:32 5615

转载 java线程:Atomic(原子的)

一、何谓Atomic？ Atomic一词跟原子有点关系，后者曾被人认为是最小物质的单位。计算机中的Atomic是指不能分割成若干部分的意思。如果一段代码被认为是Atomic，则表示这段代码在执行过程中，是不能被中断的。通常来说，原子指令由硬件提供，供软件来实现原子方法（某个线程进入该方法后，就不会被中断，直到其执行完成）在x86 平台上，CPU提供了在指令执行期间对总线

2016-06-16 15:39:19 355

转载 AtomicBoolean

使用 AtomicBoolean 高效并发处理 “只初始化一次” 的功能要求：1private static AtomicBoolean initialized = new AtomicBoolean(false);2 3public void ini

2016-06-16 15:36:08 405

转载 Akka学习笔记：ActorSystem(调度)

调度　　正如你在ActorSystem中的API看到的，如下：1//Light-weight scheduler for running asynchronous tasks after some deadline in the future.2def scheduler :Sch

2016-06-15 18:05:58 2624

转载 Akka学习笔记：ActorSystem(配置)

正如我们在前面看到的几篇文章，我们可以用ActorSystem类中的actorOf 方法来创建Actor。其实在ActorSystem中有大量的方法我们可以用，在这里我将介绍Configuration和Scheduling方法。让我们看一下ActorSystem类中的一些方法，如下图：如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_

2016-06-15 18:01:10 4123

转载 Akka学习笔记：Actor消息处理-请求和响应(2)

接《Akka学习笔记：Actor消息处理-请求和响应(1)》文章目录 [hide]0.1 二、StudentActor对InitSignal消息作出反应，并且发送了QuoteRequest 消息给TeacherActor0.2 四、StudentActor仅仅将QuoteResponse 作为日志打印到控制台/logger0.3 三、TeacherActor

2016-06-15 17:50:59 2017

转载 Akka学习笔记：Actor消息处理-请求和响应(1)

在前面的文章《Akka学习笔记：Actor消息传递(1)》和《Akka学习笔记：Actor消息传递(2)》。我们仅仅将消息发送到Actor，并没有期待从Actor发来的响应。　　从技术上讲，我们给Actor发送消息，除了没有响应，目标的Actor将对这条消息进行如下操作：　　1、给发送者发送一个响应，在我们的例子中，TeacherActor将发送一个quote 到StudentActor作

2016-06-15 17:44:15 2311

转载 Akka学习笔记：测试Actors

在《Akka学习笔记：日志》文章中介绍了Akka的日志功能。本文主要介绍如何测试Actors。文章目录 [hide]1 测试Akka1.1 1, 2 - 给Actor发送消息1.2 3、检查Actors的内部状态1.3 4、检查日志消息1.4 5、测试带有构造参数的Actors2 关闭ActorSystem测试Akka　　

2016-06-15 17:20:25 1422