snwz5588668-CSDN博客

原创 js截取，支持中文

[code="js"] var GetLength = function (str) { ///获得字符串实际长度，中文2，英文1 ///要获得长度的字符串 var realLength = 0, len = str.length, charCode = -1; fo...

2016-06-13 10:55:48 166

原创翻译一下spark sql and dataframes

[size=large][b]概述[/b][/size]spark sql 是一个结构化执行的数据模块，它并不像基本的spark rdd操作，spark sql可以提供更多的基于数据操作的接口，而且有更多的优化操作，这里提供了几种方式去个spark sql 交互，DataFrames API 和 Datasets API。[size=large][b]SQL[/b][/size]...

2016-03-23 15:20:55 145

原创 Sort-based Shuffle的设计与实现

原文 http://www.cnblogs.com/hseagle/p/3979744.html [size=large][b]概要[/b][/size][size=medium]Spark 1.1中对spark core的一个重大改进就是引入了sort-based shuffle处理机制，本文就该处理机制的实现进行初步的分析。[/size]通过一个小的实验来直观的感...

2016-03-15 08:49:25 201

原创 spark 中GC的调优

注：本文转自：[url]http://www.csdn.net/article/2015-06-01/2824823[/url][size=large]按照经验来说，当我们配置垃圾收集器时，主要有两种策略——Parallel GC和CMS GC。前者注重更高的吞吐量，而后者则注重更低的延迟。两者似乎是鱼和熊掌，不能兼得。在实际应用中，我们只能根据应用对性能瓶颈的侧重性，来选取合适的垃圾收集...

2016-03-14 11:02:26 1119

原创 spark Tungsten-将硬件性能彻底压榨

Tungsten项目将是Spark自诞生以来内核级别的最大改动，以大幅度提升Spark应用程序的内存和CPU利用率为目标，旨在最大程度上压榨新时代硬件性能。Project Tungsten包括了3个方面的努力：[b]Memory Management和Binary Processing：[/b]利用应用的语义（application semantics）来更明确地管理内存，同时消除JVM对...

2016-03-08 11:06:17 187

原创 Java 堆内存

[b][size=large]堆内存[/size][/b][size=medium]Java 中的堆是 JVM 所管理的最大的一块内存空间，主要用于存放各种类的实例对象。在 Java 中，堆被划分成两个不同的区域：新生代 ( Young )、老年代 ( Old )。新生代 ( Young ) 又被划分为三个区域：Eden、From Survivor、To Survivor。这样划分的目...

2016-03-01 10:02:59 88

原创关于Spark的Broadcast解析

[size=medium][b]本文重点关注数据块切分方法以及P2P下载数据方法[/b][/size]Broadcast（广播）是相对较为常用方法功能，通常使用方式，包括共享配置文件，map数据集，树形数据结构等，为能够更好更快速为TASK任务使用相关变量。期间，曾见过有童鞋用原始日志（log）进行广播，导致集群运行缓慢，诸位童鞋可以引此为戒，其与JAVA的ServletContex...

2016-02-20 08:37:51 1186

原创 spring mvc 常用

服务端代码写多了，最近要写web application，想用 spring mvc比较方便，多年未用，基本语法都忘记了，在此转载一下，以防以后用到再忘记：本文出处http://blog.csdn.net/lufeng20/article/details/7598801概述继 Spring 2.0 对 Spring MVC 进行重大升级后，Spring 2.5 又为...

2016-01-20 09:52:11 79

scala中的variance

定义：两个泛型类class A[type_a]class B[type_b]如果 type_a是type_b 的父类那么A也是B的父类，那么就称之为 convariance(协变)；如果 type_a是type_b 的父类 A是B的子类，那么就称之为 contravariance(逆变)；如果一个类型支持协变或逆变，则称这个类型为variance(翻译为可变的或变...

2015-12-26 10:47:34 715

原创 spark部署安装调试

本节记录spark下载-->编译-->安装-->使用首先从主站下载spark源码包（源码包更利于我们学习spark）[url]http://spark.apache.org/downloads.html[/url]注意选择所需要的相对应的spark源码版本，在此我们选择使用spark-1.3.0[img]http://dl2.iteye.com/upload/attachmen...

2015-12-02 11:28:33 81

原创 spark基本概念

记录一下课堂笔记：定义：spark是一个快速的，通用的分析大数据处理引擎。DAG（有向无环图）：在图论中，如果一个有向图无法从任意顶点出发经过若干条边回到该点，则这个图是一个有向无环图（DAG图）。因为有向图中一个点经过两种路线到达另一个点未必形成环，因此有向无环图未必能转化成树，但任何有向树均为有向无环图。DAG可用于对数学和计算机科学中得一些不同种类的结构进行建模。由...

2015-11-12 10:45:00 137

原创 spring回顾----AOP

将近一年不用spring了，在此回顾一下比较经典的AOP[size=large][b]AOP的相关术语:[/b][/size]1.通知(Advice):通知定义了切面是什么以及何时使用。描述了切面要完成的工作和何时需要执行这个工作。2.连接点(Joinpoint):程序能够应用通知的一个“时机”，这些“时机”就是连接点，例如方法被调用时、异常被抛出时等等。3.切入点(Poi...

2015-11-07 10:02:17 78

原创 hadoop计算能力调度器配置

[size=x-large]问题出现[/size]hadoop默认调度器是FIFO，其原理就是先按照作业的优先级高低，再按照到达时间的先后选择被执行的作业。比如有两个作业job1和job2，job1提交了一个优先级比较高的作业，而且独占资源时间特别长，这时候来了一个job2作业，就需要等待job1完成释放后才能执行。[size=x-large]解决方法[/size]hadoop有f...

2015-10-29 10:39:43 122

[size=large]Facebook之前曾经透露过Facebook的hbase架构，可以说是非常不错的。如他们将message服务的hbase集群按用户分为数个集群，每个集群100台服务器，拥有一台namenode以及分为５个机架，每个机架上一台zookeeper。可以说对于大数据量的服务这是一种优良的架构。对于淘宝来说，由于数据量远没有那么大，应用也没有那么核心，因此我们采用公用hdfs以及...

2015-10-28 14:59:43 122

原创一篇很好的解决系统问题过程描述文章

[size=large][color=darkred]在网上看到的一篇解决hbase性能问题的文章，虽然文章不长，但是我相信作者在此经历的过程和从中学到的知识要比这个深刻的太多了。[/color][/size][b]原文地址：[url]http://tech.meituan.com/opentsdb_hbase_compaction_problem.html[/url][/b][b][...

2015-09-23 08:40:25 264

通过GeoHash核心原理来分析hbase rowkey设计

注：本文是结合hbase实战以及网上的博文概述了一下，以作后期使用时的备份。参考资料：http://www.cnblogs.com/LBSer/p/3310455.html 百度地图，美团，大众点评等等等等，都会有查找附近的功能，如何实现呢？计算所在位置P与北京所有餐馆的距离，然后返回距离...

2015-09-08 15:49:46 418

原创从OpenTsdb来分析rowkey设计

讨论此问题前，先理解一个问题。关于Hbase热点问题当处理由连续事件得到的数据时，即时间上连续的数据。这些数据可能来自于某个传感器网络、证券交易或者一个监控系统。它们显著的特点就是rowkey中含有事件发生时间。带来的一个问题便是HBase对于row的不均衡分布，它们被存储在一个唯一的rowkey区间中，被称为region，区间的范围被称为Start Key和End Key。对...

2015-09-06 16:04:00 667

原创 HBase中asynchbase的使用方式

Hbase的原生java 客户端是完全同步的，当你使用原生API 例如HTableInterface 访问HBase表，每个动作都会有一个短暂的阻塞，这对于一些流程较长的操作看起来比较不利。HBase在此还提供了另外一种java客户端 asynchbase，它实现了完全异步以及考虑线程安全。依赖jar:asynchbase.jar slf4j-api.jar ...

2015-08-25 10:32:39 3697

原创 HBase 中mapreduce join的使用

[b][size=x-large]首先介绍常用的几种 mapreduce 方法[/size][/b][color=red][b][size=large]reduce side join[/size][/b][/color][b]reduce side join是一种最简单的join方式，其主要思想如下：在map阶段，map函数同时读取两个文件File1和File2，为了区分两种来源的k...

2015-08-06 16:48:49 350

原创 Mapreduce优化的点滴

[b]注：转载[/b][size=large]1. 使用自定义Writable[/size]自带的Text很好用，但是字符串转换开销较大，故根据实际需要自定义Writable，注意作为Key时要实现WritableCompareable接口避免output.collect(new Text( ),new Text())提倡key.set( ) value.set( ...

2015-07-16 15:18:57 81

原创 hadoop 如何自定义类型

记录一下hadoop 数据类型章节的笔记，以便后期使用，本文是边学习边记录，持续更新中[size=large][b]Hadoop 常用自带的数据类型和Java数据类型配比如下[/b][/size][table]|[color=red]Hadoop类型[/color]|[color=red]Java类型[/color]|[color=red]描述[/color]||Boole...

2015-07-15 09:37:00 255

原创 napreduce shuffle 过程记录

[size=large][b]在我看来 hadoop的核心是mapreduce，而mapreduce的核心则是 shuffle，在我们需要优化mapreduce，提高mapreduce效率时，需要优化的核心代码都在这个shuffle过程。我从网上拉过来一张图，加上自己的标注来详细记录一下该过程，以便后期优化代码做一个记录mapreduce整个执行过程如下...

2015-07-10 11:23:42 134

原创 redis存储类型以及持久化存储方式介绍

[b][size=large]redis存储数据类型[/size][/b]与Memcached仅支持简单的key-value结构的数据记录不同，Redis支持的数据类型要丰富得多。最为常用的数据类型主要由五种：String、Hash、List、Set和Sorted Set.Redis内部使用一个redisObject对象来表示所有的key和value。redisObject最主要的...

2015-07-09 11:37:55 203

原创 oracle游标使用的方方面面

[code="java"]-- 声明游标；CURSOR cursor_name IS select_statement--For 循环游标--（1）定义游标--（2）定义游标变量--（3）使用for循环来使用这个游标declare --类型定义 cursor c_job is select empno,en...

2015-03-13 11:31:08 64

oracle 触发器实现多表级联修改

[b]应用场景：[/b]table name Afield name： yesterday date(昨日日期) today date(今日日期) yesterdaynum number(昨日数量=totle) todaynum number(今日数量) ...

2015-03-13 09:44:19 1374

原创 oracle 游标判空方法

[code="java"]create or replace package TAL_TEST is TYPE myCursorType IS REF CURSOR; --测试空游标 PROCEDURE p_testEmptyCursor; end TAL_TEST;[/code][code="java"]create or replac...

2015-03-08 08:40:18 880

原创 ZooKeeper伪分布式集群安装及使用

1. zookeeper介绍ZooKeeper是一个为分布式应用所设计的分布的、开源的协调服务，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，简化分布式应用协调及其管理的难度，提供高性能的分布式服务。ZooKeeper本身可以以Standalone模式安装运行，不过它的长处在于通过分布式ZooKeeper集群（一个Leader，多个Follower），基于一定的策略来保证ZooKe...

2015-02-13 08:29:32 102

原创 hadoop-mahout 核心算法总结

其实大家都知道hadoop为我们提供了一个大的框架，真正的算法还是要程序员自己去实现，所以了解hadoop大概架构之后就要了解一些基本的算法。mahout--可以理解为hadoop的驾驶员。学习它一定要从《mahout in action》入手，在此我记录下一些学习的笔记仅供参考。第一节：基于用户的推荐算法GenericUserBasedRecommender 算法原理官...

2015-02-07 10:08:36 333

原创推荐引擎内部原理--mahout

转载自：https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/集体智慧和协同过滤什么是集体智慧集体智慧 (Collective Intelligence) 并不是 Web2.0 时代特有的，只是在 Web2.0 时代，大家在 Web 应用中利用集体智慧构建更加有趣的应用或者得到更好的用户体验。集体智慧...

2015-01-22 11:11:15 142

原创 hadoop 动态添加删除节点

转自：http://www.cnblogs.com/rilley/archive/2012/02/13/2349858.html添加节点1.修改host 和普通的datanode一样。添加namenode的ip 2.修改namenode的配置文件conf/slaves 添加新增节点的ip或host 3.在新节点的机器上，启动服务[root@slave-004 hadoop...

2015-01-20 13:39:38 149

原创 mapreduce 开发以及部署

前面几篇文章的梳理让我对hadoop新yarn 框架有了一个大概的认识，今天开始回归老本行---开始coding。因为涉及到linux系统部署，所以今天安了一个linux 的 lszrz 插件下载并解压缩 lrzsz-0.12.20.tar.gz安装之前，需要检查系统是否有gcc 若没有请安装 yum install gcc安装lrzsz ./configure &...

2015-01-16 13:56:45 188

原创 hadoop yarn几个问题的记录

本文主要介绍以下几个知识：一、老的 hadoop框架存在的问题二、yarn框架的优势三、yarn框架中几个功能组件介绍一：老的 hadoop框架存在的问题首先我们要了解老hadoop框架中任务流程1：首先用户程序 (JobClient) 提交了一个 job，job 的信息会发送到 Job Tracker 中，Job Tracker 是 Map-reduce 框架的中心，他需要与集群中的机器定时...

2015-01-13 11:48:54 99

原创 hadoop集群部署时候的几个问题记录

[size=large]本章部署一个hadoop 集群由于2.5.x 已经出来有好几个月了，网上配置类似架构的文章也有很多，所以在这里重点描述一下namenode 和 secondary namenode不再同一台机器上的配置方法，以及namenode 宕机后 meta数据的恢复方法，并且描述一下几个主要配置文件中配置项的意义。集群大概框架为1个namenode 一个 secon...

2015-01-13 10:24:38 113

原创 hadoop单节点部署

[size=large]下面我们来一步步的进行hadoop安装部署：从零开始机器环境Distributor ID: CentOSDescription: CentOS release 5.8 (Final)Release: 5.8Codename: Finaljdk 版本java version "1.6.0_45"hadoop 版本2.5.2 ...

2015-01-08 15:35:57 121

原创 hadoop中hdfs读取文件的原理剖析

[size=large]上一篇文章中简单介绍了一下hadoop文件存储的一些逻辑与简单原理，既然后写入，那肯定要读取分析数据咯，下面我在白话一下hdfs中文件读取的逻辑与简单原理。 :oops: :oops: [b]第一步：[/b]跟写入文件一样，首先客户端会调用DistributedFilesyStem 对象的open（）方法来打开文件，这个方法要做的事情就是：Distributed ...

2015-01-08 11:45:36 207

原创 hadoop中hdfs写入文件的原理剖析

[size=large]最近忙里偷闲，充充电，虽然在四线城市，但是也要为即将到来的大数据时代最准备不是 :D :D 下面的大白话简单记录了hdfs在存储文件时都做了哪些个事情，问了将来集群问题的排查提供一些参考依据。步入正题 :arrow: 创建一个新文件的过程：[b]第一步：[/b]客户端通过DistributedFilesystem 对象中的creat（）方法来创建文...

2015-01-08 09:11:50 145

原创 nginx 整合redis以及lua语言

nginx 的官方wiki 提供了nginx 模块，使其支持了对redis 的读写访问以及支持第三方语言lua去对nginx功能进行扩充。注：页面最下面有本文描述的各个模块的安装文件。下面描述两个主要的模块模块一：HttpRedis2Module wiki 地址：http://wiki.nginx.org/HttpRedis2Module#Description...

2014-04-09 16:27:05 251

原创 cas 集群环境代码开发

注：转载自 http://blog.csdn.net/roadmap001/article/details/8686301单点登录（SSO）是复杂应用系统的基本需求，Yale CAS是目前常用的开源解决方案。CAS认证中心，基于其特殊作用，自然会成为整个应用系统的核心，所有应用系统的认证工作，都将请求到CAS来完成。因此CAS服务器是整个应用的关键节点，CAS发生故障，所有系统都将陷入瘫痪...

2013-10-18 14:35:42 91

原创 cas client AuthenticationFilter

必要参数：casServerLoginUrl ：定义CAS服务器的登录URL地址，例如： https://localhost:8443/cas/loginservice or serverName： service ：发送到CAS服务器的service URL地址，例如https://localhost:8443/yourwebapp/index.html ...

2013-08-02 15:30:29 97

原创 thrift 基本应用

看到一篇介绍thrift 最基本应用的几句话就可以说清楚怎么使用记录下简单的实现一个PING的功能 1.安装thrift http://thrift.apache.org/download/ 人人网镜像下载: http://labs.renren.com/apache-mirror/thrift/0.6.1/thrift-0.6.1.exe2.编...

2012-06-05 16:24:33 81

空空如也

空空如也