亚信联创大数据平台li-CSDN博客

转载 Partition深度解析&一致性hash

Hadoop中Partition深度解析 http://www.tuicool.com/articles/uaQVjqm旧版 API 的 Partitioner 解析 Partitioner 的作用是对 Mapper 产生的中间结果进行分片，以便将同一分组的数据交给同一个 Reducer 处理，它直接影响 Reduce 阶段的负载均衡。旧版 API 中 Partitioner 的类图如图所示。它

2016-05-02 23:05:07 1185

原创欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2016-05-02 21:51:35 985

转载 SQL之函数

一：函数函数可以理解为一种工具，用于完成定义明确的任务，如平方根、大小字母转换等。有些函数需要输入参数，有些函数不需要输入参数，但是函数必须具有返回值。函数分为确定性函数和非确定性函数，确定性函数只需要输入相同的参数，则返回值总是相同的，如abs函数，非确定性函数调用相同的参数，会出现返回值不同的情况，如SQL Serve

2014-12-12 22:15:01 1140

转载 Social Network 社交网络分析

一：什么是SNA-社交网络分析社交网络分析的威力何在？我想几个案例来说明。案例1：对一个毫无了解的组织（这个组织可以是一个公司，亦或是一个组织），如果能够拿到这个组织成员之间的信息流动记录（例如通话记录/或邮件记录），那么通过SNA可以分析出谁是这个组织的实际控制者（要知道有必要加上实际二字），谁是这些成员中有影响力的人，那些成员更倾向于聚集在一起。对上述问题的回答可以用来做公关-

2014-12-01 13:17:49 3221

原创阿里云关系型数据库服务RDS

关系型数据库服务（Relational Database Service，简称RDS）是一种即开即用、稳定可靠、可弹性伸缩的在线数据库服务。具有多重安全防护措施和完善的性能监控体系，并提供专业的数据库备份、恢复及优化方案，使您能专注于应用开发和业务发展。

2014-11-21 15:12:49 2140

转载 apache kafka性能测试命令使用和构建kafka-perf

昨天在公司时，本来想用kafka官方提供的工具做性能测试的。但事与愿违，当我执行官方提供的kafka测试脚本，却报错没有找到ProducerPerformance，后来浏览一些代码文件，才发现没有把perf性能测试程序打包到kafka_2.x.0-0.8.x.x.jar发行版本中。现在来教您如何打包做测试。1.准备工作：安装gradle2.下载kafka源代码kafka

2014-11-11 18:29:53 6490

转载腾讯TDW千台Spark千亿节点对相似度计算

本文将介绍腾讯TDW使用千台规模的Spark集群来对千亿量级的节点对进行相似度计算这个案例，通过实验对比，我们优化后的性能是MapReduce的6倍以上，是GraphX的2倍以上。

2014-11-10 09:01:46 1589

转载八种Docker容器开发模式

Docker现在成了我最喜欢的工具，在本文中，我将概述一些在我使用Docker过程中反复出现的模式。我不期待它们能给你带来多少惊喜，但我希望这些能对你有用，我非常愿意与你交流在使用Docker过程中碰到的模式。我所有Docker实验的基础是保持volume状态不变，以便Docker容器在没有数据丢失的前提下任意重构。1. The Shared Base Container(s)

2014-10-30 13:43:13 1683

转载 Databricks终止Shark项目，转至Spark SQL

摘要：近日，Databricks宣布终止对Shark的开发，新的SQL on Spark项目将被Spark SQL代替。在此之外，HIVE-7292项目将是对Hive部分的补充，将Spark作为一个替代执行引擎提供给Hive。在2014年7月1日的Spark Summit上，Databricks宣布终止对Shark的开发，将重点放到Spark SQL上。Databricks表示，Spa

2014-07-03 12:31:28 2279

原创加密算法

加密技术通常分为两大类：“对称式”和“非对称式”。对称式加密就是加密和解密使用同一个密钥，通常称之为“Session Key ”这种加密技术现在被广泛采用，如美国政府所采用的DES加密标准就是一种典型的“对称式”加密法，它的Session Key长度为56bits。

2014-07-01 13:44:04 1232

转载 OnlineLogisticRegression

mahout源码分析AdaptiveLogisticRegression.java 实现了OnlineLearner接口。维护一个普通的OnlineLogisticRegression学习器池，池中的每一个元素都有不同的学习率。一个主意是学习器池实际维护一个CrossFoldLearners（包含数个OnlineLogisticRegression对象）。这些池允许我们进行

2014-06-05 14:29:06 1940

转载国外医疗行业大数据应用解决之道

国外医疗行业大数据应用解决之道医疗保健不乏大数据分析应用案例，其中包括减少再住院、更好的药物治疗管理、提高战略规划和防欺诈行为。这些意愿都很好，但关键在于从何开始？大多数医疗数据仍然非结构化的专有的和孤立的——为此创建一个临床数据仓库是一件非常复杂的事情，这让医疗行业CIO常常不能自圆其说。幸运的是，可以从医疗行业大数据实践中来吸取教

2014-06-04 18:29:32 3369 1

转载马云大数据布局

马云大数据布局当你明白何为大数据，就知道这次马云又在布一个很大的局，他也开始向大数据领域发力了。可以预料，大数据将会成为未来产业财富扩张的重要引擎。　　为何大家对大数据表现出如此的激情呢？看看外面精彩的世界便知一二。　　大数据最近很火爆！马云收购恒生终于在传言不久后，被恒生电子股份有限公司股东股权变动的提示性公告证实。马云不好好经营电商打通线上线下，他花33亿收购恒生干嘛？

2014-06-04 18:20:06 1770

转载 TDW开源：腾讯的分布式数据仓库

腾讯分布式数据仓库 ( Tencent distributed Data Warehouse，简称TDW) 是腾讯基于开源软件研发的大数据处理平台，它基于Hadoop、Hive、PostgreSQL之上进行研发，历经4年多的研发和运营。目前，TDW已经开源。腾讯分布式数据仓库（Tencent distributed Data Warehouse，简称 TDW），是腾讯工程技术事业群数据平台

2014-05-23 10:03:11 10003

转载 Spark 0.9.1 MLLib 机器学习库

Spark 0.9.1 MLLib 机器学习库简介这篇Spark MLLib 机器学习库的简介翻译自Spark官方文档。感谢 @明风的悉心的校对修改。Spark 0.9.1 MLLib机器学习库简介依赖二元分类线性回归聚类协同过滤隐性反馈 vs 显性反馈梯度下降基础算法用Scala调用MLLib

2014-05-12 22:13:32 10730 3

转载 Apache Hive 0.13发布，新增ACID特性

4月16日在http://mirror.bit.edu.cn/apache/hive/hive-0.13.0/网址就可以下载Hive 0.13，这个版本在Hive执行速度、扩展性、SQL以及其他方面做了相当多的修改：一、执行速度　　用户可以选择基于Tez的查询，基于Tez的查询可以大大提高Hive的查询速度（官网上上可以提升100倍）。下面一些技术对查询速度的提升：　　（1）、

2014-05-08 09:31:25 1444

转载让hadoop远程调试飞

读hadoop源代码时，经常需要调试源代码。hadoop几乎所有的进程的启动最终全部依靠$HADOOP_HOME/bin/hadoop 脚本实现，开始就简单的在需要的地方添加JDWP的debug选项，做的多了，感觉不够自动化，简单修改了一下hadoop这个脚本，让自动化远程调试飞！修改的脚本如下：在$HADOOP_HOME/bin/hadoop中后添加：

2014-04-16 09:35:12 1132

原创网站分析在中国

http://www.chinawebanalytics.cn/site-map/http://www.chinawebanalytics.cn/概念：

2014-04-12 22:43:34 1071

转载详细探究Spark的shuffle实现

Background在MapReduce框架中，shuffle是连接Map和Reduce之间的桥梁，Map的输出要用到Reduce中必须经过shuffle这个环节，shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现，自然也实现了shuffle的逻辑，本文就深入研究Spark的shuffle是如何实现的，有什么优缺点，与Hadoop Ma

2014-03-30 23:20:48 35861 8

转载大数据分析及处理

从所周知，大数据已经不简简单单是数据大的事实了，而最重要的现实是对大数据进行分析，只有通过分析才能获取很多智能的，深入的，有价值的信息。那么越来越多的应用涉及到大数据，而这些大数据的属性，包括数量，速度，多样性等等都是呈现了大数据不断增长的复杂性，所以大数据的分析方法在大数据领域就显得尤为重要，可以说是决定最终信息是否有价值的决定性因素。基于如此的认识，大数据分析普遍存在的方法理论有哪些呢？

2014-03-27 22:33:27 2762

转载 Hadoop MapReduce两种常见的容错场景分析

本文将分析Hadoop MapReduce（包括MRv1和MRv2）的两种常见的容错场景，第一种是，作业的某个任务阻塞了，长时间占用资源不释放，如何处理？另外一种是，作业的Map Task全部运行完成后，在Reduce Task运行过程中，某个Map Task所在节点挂了，或者某个Map Task结果存放磁盘损坏了，该如何处理？第一种场景：作业的某个任务阻塞了，长时间占用资源不释放，如何处

2014-03-26 23:55:10 1320

转载 DPark安装及相关资料整理

最近需要处理海量数据的分布式计算及数据挖掘，经过多次选择(hadoop,Spark,DPark)，最后还是选择了DPark，主要是看中DPark的轻量级及python的灵活性，且除了豆瓣外，在几个友公司都有成功的应用案例。不过很痛苦的是DPark的资料太少了，连github上的官方wiki都不够详细，暂时只能主要靠自己摸索。这篇文章主要记录DPark的一些资料及我在安装时的一些问题

2014-03-23 21:23:08 5026

转载推荐系统中协同过滤算法实现分析

最近研究Mahout比较多，特别是里面协同过滤算法；于是把协同过滤算法的这个实现思路与数据流程，总结了一下，以便以后对系统做优化时，有个清晰的思路，这样才能知道该如何优化且优化后数据亦能正确。推荐中的协同过滤算法简单说明下：首先，通过分析用户的偏好行为，来挖掘出里面物品与物品、或人与人之间的关联。其次，通过对这些关联的关系做一定的运算，得出人与

2014-03-10 13:15:14 1675

FastDb是高效的内存数据库系统，具备实时能力及便利的C++接口。FastDB不支持client-server架构因而所有使用FastDB的应用程序必须运行在同一主机上。FastDB针对应用程序通过控制读访问模式作了优化。通过降低数据传输的开销和非常有效的锁机制提供了高速的查询。对每一个使用数据库的应用数据库文件被影射到虚拟内存空间中。因此查询在应用的上下文中执行而不需要切换上下文以及数据传输。

2014-03-01 20:48:07 1484

转载 Running Shark Locally 及可能出现的问题

Shark本地安装 1.下载scala wget http://www.scala-lang.org/files/archive/scala-2.9.3.tgz 最新有2.10.2.tgz文件 tar xvfz scala-2.9.3.tgz 2.下载shark and hive压缩包 wget http://spark-project.org/download/s

2014-02-25 14:48:44 1565

转载内存数据库

目前在国内电信行业，内存数据库已经是普遍使用了，特别是这次联通BSS、OCS、电信OCS产品，基本都是集成了内存数据库产品，其中主要是TT、altibase，似乎没有IBM的solid的案例，此外华为有自己的内存数据库产品。内存数据库是和我们经常使用的共享内存类似的技术产品，比较专业，对客户直接的感受就是，给了他们一个可以图形化维护的工具，感觉上稳定性和扩展性比各个厂商土鳖的共享

2014-02-23 19:53:25 2194

原创 hive Recover Partitions命令MSCK REPAIR TABLE table_name

直接用hadoop命令复制删除hive存储数据后，需要add partition或alter来同步源数据信息，否则drop表等操作时会查询元数据metastore，查到metastore信息和hdfs信息不一致，会报错。这个也可算是hive的bug，尚未修复，但也可以理解为初衷不建议直接操作hdfs数据。目前，可以采用命令： MSCK REPAIR TABLE table_name

2014-02-18 10:45:58 9501

转载 hive：MoveTask

运行SQL时出了个错：SQL： INSERT OVERWRITE DIRECTORY 'result/testConsole' select count(1) from nutable; 错误信息：Failed with exception Unable to rename: hdfs://indigo:8020/tmp/hive-root/hive_2013-08-22_

2014-02-14 14:58:38 6075 2

转载 Java垃圾回收器

转自csdnJava垃圾回收器是Java虚拟机(JVM)的三个重要模块(另外两个是解释器和多线程机制)之一，为应用程序提供内存的自动分配(Memory Allocation)、自动回收(Garbage Collect)功能，这两个操作都发生在Java堆上(一段内存快)。某一个时点，一个对象如果有一个以上的引用(Rreference)指向它，那么该对象就为活着的(Live)，否则死亡(D

2014-01-20 23:03:09 886

转载 Spark on Yarn：性能调优

1. 调优经验应该说，Spark开发中，具体采用什么调优方法去优化性能，需要根据具体算法和实现而定，适合我们这个问题的方法不一定就适合其他问题，但希望我们的经验可以让其他人少踩点坑，更多的调优方法还可以参考官方文档中的 Configuration 和 Tuning 部分。（1）配置项的使用熟悉Hadoop开发的同学应该对配置项不陌生。根据不同问题，调整不同的配置项参数，

2014-01-17 18:42:35 9476

原创 shark应用cache

转自官网Unlike Hive, Shark allows users to exploit this temporallocality by caching their working set of data, or in database terms, to createin-memory materialized views. Common data types can be cac

2014-01-17 17:30:25 1727

转载 Shark本地安装及可能出现的问题

1.下载scala wget http://www.scala-lang.org/files/archive/scala-2.9.3.tgz 最新有2.10.2.tgz文件 tar xvfz scala-2.9.3.tgz 2.下载shark and hive压缩包 wget http://spark-project.org/download/shark-0.7.0

2014-01-16 18:06:54 3698

转载 Spark开发指南（0_8_1中文版）

转自淘宝Spark开发指南简介接入Spark Spark初始化Master URLs在集群上部署代码弹性分布式数据集并行集合 (Parallelized Collections)Hadoop 数据集 (Hadoop Datasets)RDD 的操作转换动作RDD 的持久化存储级别的选择共享变量广播变量累加器

2014-01-16 09:47:57 11546

转载 hive优化

最近使用hive一个多月下来(终于完成第一期数据分析迁移工作了)，当时使用的0.8的版本（现在最新版本是0.8.1），一个多月下来收获很多。从安装环境、调试、开发、业务理解、技术攻关、业务实现等，一一都体验了一把！总的来说，除了目前网上所介绍的常规hive使用和优化外。因为目前hive只支持0.20的相关版本，所以我们的环境还是使用的0.20版本的hadoop来进行搭建。

2013-04-29 18:52:07 4938

转载 hive存储格式sequencefile和rcfile的对比

源数据放在test1表中，大小 26413896039 Byte。创建sequencefile 压缩表test2，使用insert overwrite table test2 select ...语句将test1数据导入 test2 ，设置配置项：set hive.exec.compress.output=true;set mapred.output.compre

2013-04-29 18:44:09 1398

转载数据库水平切分的实现原理解析－分库，分表，主从，集群，负载均衡器

第1章引言随着互联网应用的广泛普及，海量数据的存储和访问成为了系统设计的瓶颈问题。对于一个大型的互联网应用，每天几十亿的PV无疑对数据库造成了相当高的负载。对于系统的稳定性和扩展性造成了极大的问题。通过数据切分来提高网站性能，横向扩展数据层已经成为架构研发人员首选的方式。水平切分数据库，可以降低单台机器的负载，同时最大限度的降低了了宕机造成的损失。通过负载均衡策略，有效的降低了单台机器

2012-08-06 16:54:51 1790

转载负载均衡，会话保持，session同步

一，什么负载均衡一个新网站是不要做负载均衡的，因为访问量不大，流量也不大，所以没有必要搞这些东西。但是随着网站访问量和流量的快速增长，单台服务器受自身硬件条件的限制，很难承受这么大的访问量。在这种情况下，有二种方案可以选择：1，对单台服务器的硬件进行更新，由双核的变成四核的，内存加大等。2，增加服务器的台数，来分担服务器的负担。以实现增加网络带宽，增加服务器的处理能力的目的。第一种

2012-08-06 16:53:54 1085

原创立志

人无志向，柔弱无钢。王阳明说的好，志向不确立，犹如没有舵的船，没有马嚼子的马，漂流奔放，最后将达到何处。曾国潘曰：志向不树立时，人就容易放松潦倒，所以心中没有一定的努力的方向。没有一定的努力的方向就不能保持宁静，不能宁静就不能心安，其根子在于没有树立志向。 [有志不在

2011-07-26 11:40:47 1065

转载 2011年5月10日

哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生，慢慢的，你的人生将会发生变化…… 一个人的成就，不是以金钱衡量，而是一生中，你善待过多少人，有多少人怀念你。生意人的

2011-05-10 12:56:00 763

原创思想

中午吃饭前看窗外风景。明白了一个道理：看不到远处的风景被眼前的小零碎当住了眼。所谓一叶障目。 马云谈人才三个要素：眼光、胸怀、能力。 眼光应该是想的远。而人想不远是因为看不到远处。看不到远处有几点：没看远处、或者看了但被别的挡在了。 反省我自己：这几年中。05-06，06-07，07-09，09-11。没有大的进展，一直被外界环境推着走或呆在原地或退步。 1，很少想过远处。被各种事情困扰、一休息就玩、放松<b

2011-04-27 13:17:00 794