自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

亚信联创大数据平台Li

理想.坚强.胸怀

  • 博客(47)
  • 资源 (42)
  • 收藏
  • 关注

转载 Partition深度解析&一致性hash

Hadoop中Partition深度解析 http://www.tuicool.com/articles/uaQVjqm旧版 API 的 Partitioner 解析 Partitioner 的作用是对 Mapper 产生的中间结果进行分片,以便将同一分组的数据交给同一个 Reducer 处理,它直接影响 Reduce 阶段的负载均衡。旧版 API 中 Partitioner 的类图如图所示。它

2016-05-02 23:05:07 1185

原创 欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2016-05-02 21:51:35 985

转载 SQL之函数

一:函数        函数可以理解为一种工具,用于完成定义明确的任务,如平方根、大小字母转换等。        有些函数需要输入参数,有些函数不需要输入参数,但是函数必须具有返回值。        函数分为确定性函数和非确定性函数,确定性函数只需要输入相同的参数,则返回值总是相同的,如abs函数,非确定性函数调用相同的参数,会出现返回值不同的情况,如SQL Serve

2014-12-12 22:15:01 1140

转载 Social Network 社交网络分析

一:什么是SNA-社交网络分析社交网络分析的威力何在?我想几个案例来说明。案例1:对一个毫无了解的组织(这个组织可以是一个公司,亦或是一个组织),如果能够拿到这个组织成员之间的信息流动记录(例如通话记录/或邮件记录),那么通过SNA可以分析出谁是这个组织的实际控制者(要知道有必要加上实际二字),谁是这些成员中有影响力的人,那些成员更倾向于聚集在一起。对上述问题的回答可以用来做公关-

2014-12-01 13:17:49 3221

原创 阿里云关系型数据库服务RDS

关系型数据库服务(Relational Database Service,简称RDS)是一种即开即用、稳定可靠、可弹性伸缩的在线数据库服务。具有多重安全防护措施和完善的性能监控体系,并提供专业的数据库备份、恢复及优化方案,使您能专注于应用开发和业务发展。

2014-11-21 15:12:49 2140

转载 apache kafka性能测试命令使用和构建kafka-perf

昨天在公司时,本来想用kafka官方提供的工具做性能测试的。但事与愿违,当我执行官方提供的kafka测试脚本,却报错没有找到ProducerPerformance,后来浏览一些代码文件,才发现没有把perf性能测试程序打包到kafka_2.x.0-0.8.x.x.jar发行版本中。现在来教您如何打包做测试。1.准备工作:安装gradle2.下载kafka源代码kafka

2014-11-11 18:29:53 6490

转载 腾讯TDW千台Spark千亿节点对相似度计算

本文将介绍腾讯TDW使用千台规模的Spark集群来对千亿量级的节点对进行相似度计算这个案例,通过实验对比,我们优化后的性能是MapReduce的6倍以上,是GraphX的2倍以上。

2014-11-10 09:01:46 1589

转载 八种Docker容器开发模式

Docker现在成了我最喜欢的工具,在本文中,我将概述一些在我使用Docker过程中反复出现的模式。我不期待它们能给你带来多少惊喜,但我希望这些能对你有用,我非常愿意与你交流在使用Docker过程中碰到的模式。我所有Docker实验的基础是保持volume状态不变,以便Docker容器在没有数据丢失的前提下任意重构。1. The Shared Base Container(s)

2014-10-30 13:43:13 1683

转载 Databricks终止Shark项目,转至Spark SQL

摘要:近日,Databricks宣布终止对Shark的开发,新的SQL on Spark项目将被Spark SQL代替。在此之外,HIVE-7292项目将是对Hive部分的补充,将Spark作为一个替代执行引擎提供给Hive。在2014年7月1日的Spark Summit上,Databricks宣布终止对Shark的开发,将重点放到Spark SQL上。Databricks表示,Spa

2014-07-03 12:31:28 2279

原创 加密算法

加密技术通常分为两大类:“对称式”和“非对称式”。对称式加密就是加密和解密使用同一个密钥,通常称之为“Session Key ”这种加密技术现在被广泛采用,如美国政府所采用的DES加密标准就是一种典型的“对称式”加密法,它的Session Key长度为56bits。

2014-07-01 13:44:04 1232

转载 OnlineLogisticRegression

mahout源码分析AdaptiveLogisticRegression.java 实现了OnlineLearner接口。维护一个普通的OnlineLogisticRegression学习器池,池中的每一个元素都有不同的学习率。一个主意是学习器池实际维护一个CrossFoldLearners(包含数个OnlineLogisticRegression对象)。这些池允许我们进行

2014-06-05 14:29:06 1940

转载 国外医疗行业大数据应用解决之道

国外医疗行业大数据应用解决之道医疗保健不乏大数据分析应用案例,其中包括减少再住院、更好的药物治疗管理、提高战略规划和防欺诈行为。这些意愿都很好,但关键在于从何开始?大多数医疗数据仍然非结构化的专有的和孤立的——为此创建一个临床数据仓库是一件非常复杂的事情,这让医疗行业CIO常常不能自圆其说。幸运的是,可以从医疗行业大数据实践中来吸取教

2014-06-04 18:29:32 3369 1

转载 马云大数据布局

马云大数据布局 当你明白何为大数据,就知道这次马云又在布一个很大的局,他也开始向大数据领域发力了。可以预料,大数据将会成为未来产业财富扩张的重要引擎。  为何大家对大数据表现出如此的激情呢? 看看外面精彩的世界便知一二。  大数据最近很火爆!马云收购恒生终于在传言不久后,被恒生电子股份有限公司股东股权变动的提示性公告证实。马云不好好经营电商打通线上线下,他花33亿收购恒生干嘛?

2014-06-04 18:20:06 1770

转载 TDW开源:腾讯的分布式数据仓库

腾讯分布式数据仓库 ( Tencent distributed Data Warehouse,简称TDW) 是腾讯基于开源软件研发的大数据处理平台,它基于Hadoop、Hive、PostgreSQL之上进行研发,历经4年多的研发和运营。目前,TDW已经开源。腾讯分布式数据仓库(Tencent distributed Data Warehouse,简称 TDW),是腾讯工程技术事业群数据平台

2014-05-23 10:03:11 10003

转载 Spark 0.9.1 MLLib 机器学习库

Spark 0.9.1 MLLib 机器学习库简介这篇Spark MLLib 机器学习库的简介翻译自Spark官方文档。感谢 @明风 的悉心的校对修改。Spark 0.9.1 MLLib机器学习库简介依赖二元分类线性回归聚类协同过滤隐性反馈 vs 显性反馈梯度下降基础算法用Scala调用MLLib

2014-05-12 22:13:32 10730 3

转载 Apache Hive 0.13发布,新增ACID特性

4月16日在http://mirror.bit.edu.cn/apache/hive/hive-0.13.0/网址就可以下载Hive 0.13,这个版本在Hive执行速度、扩展性、SQL以及其他方面做了相当多的修改:一、执行速度  用户可以选择基于Tez的查询,基于Tez的查询可以大大提高Hive的查询速度(官网上上可以提升100倍)。下面一些技术对查询速度的提升:  (1)、

2014-05-08 09:31:25 1444

转载 让hadoop远程调试飞

读hadoop源代码时,经常需要调试源代码。hadoop几乎所有的进程的启动最终全部依靠$HADOOP_HOME/bin/hadoop 脚本实现,开始就简单的在需要的地方添加JDWP的debug选项,做的多了,感觉不够自动化,简单修改了一下hadoop这个脚本,让自动化远程调试飞!修改的脚本如下: 在$HADOOP_HOME/bin/hadoop中后添加: 

2014-04-16 09:35:12 1132

原创 网站分析在中国

http://www.chinawebanalytics.cn/site-map/http://www.chinawebanalytics.cn/概念:

2014-04-12 22:43:34 1071

转载 详细探究Spark的shuffle实现

Background在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑,本文就深入研究Spark的shuffle是如何实现的,有什么优缺点,与Hadoop Ma

2014-03-30 23:20:48 35861 8

转载 大数据分析及处理

从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢?

2014-03-27 22:33:27 2762

转载 Hadoop MapReduce两种常见的容错场景分析

本文将分析Hadoop MapReduce(包括MRv1和MRv2)的两种常见的容错场景,第一种是,作业的某个任务阻塞了,长时间占用资源不释放,如何处理?另外一种是,作业的Map Task全部运行完成后,在Reduce Task运行过程中,某个Map Task所在节点挂了,或者某个Map Task结果存放磁盘损坏了,该如何处理?第一种场景:作业的某个任务阻塞了,长时间占用资源不释放,如何处

2014-03-26 23:55:10 1320

转载 DPark安装及相关资料整理

最近需要处理海量数据的分布式计算及数据挖掘,经过多次选择(hadoop,Spark,DPark),最后还是选择了DPark,主要是看中DPark的轻量级及python的灵活性,且除了豆瓣外,在几个友公司都有成功的应用案例。不过很痛苦的是DPark的资料太少了,连github上的官方wiki都不够详细,暂时只能主要靠自己摸索。这篇文章主要记录DPark的一些资料及我在安装时的一些问题

2014-03-23 21:23:08 5026

转载 推荐系统中协同过滤算法实现分析

最近研究Mahout比较多,特别是里面协同过滤算法;于是把协同过滤算法的这个实现思路与数据流程,总结了一下,以便以后对系统做优化时,有个清晰的思路,这样才能知道该如何优化且优化后数据亦能正确。     推荐中的协同过滤算法简单说明下:     首先,通过分析用户的偏好行为,来挖掘出里面物品与物品、或人与人之间的关联。     其次,通过对这些关联的关系做一定的运算,得出人与

2014-03-10 13:15:14 1675

转载 内存数据库fastdb

FastDb是高效的内存数据库系统,具备实时能力及便利的C++接口。FastDB不支持client-server架构因而所有使用FastDB的应用程序必须运行在同一主机上。FastDB针对应用程序通过控制读访问模式作了优化。通过降低数据传输的开销和非常有效的锁机制提供了高速的查询。对每一个使用数据库的应用数据库文件被影射到虚拟内存空间中。因此查询在应用的上下文中执行而不需要切换上下文以及数据传输。

2014-03-01 20:48:07 1484

转载 Running Shark Locally 及可能出现的问题

Shark本地安装 1.下载scala wget http://www.scala-lang.org/files/archive/scala-2.9.3.tgz 最新有2.10.2.tgz文件 tar xvfz scala-2.9.3.tgz 2.下载shark and hive压缩包 wget http://spark-project.org/download/s

2014-02-25 14:48:44 1565

转载 内存数据库

目前在国内电信行业,内存数据库已经是普遍使用了,特别是这次联通BSS、OCS、电信OCS产品,基本都是集成了内存数据库产品,其中主要是TT、altibase,似乎没有IBM的solid的案例,此外华为有自己的内存数据库产品。 内存数据库是和我们经常使用的共享内存类似的技术产品,比较专业,对客户直接的感受就是,给了他们一个可以图形化维护的工具,感觉上稳定性和扩展性比各个厂商土鳖的共享

2014-02-23 19:53:25 2194

原创 hive Recover Partitions命令MSCK REPAIR TABLE table_name

直接用hadoop命令复制删除hive存储数据后,需要add partition或alter来同步源数据信息,否则drop表等操作时会查询元数据metastore,查到metastore信息和hdfs信息不一致,会报错。这个也可算是hive的bug,尚未修复,但也可以理解为初衷不建议直接操作hdfs数据。目前,可以采用命令: MSCK REPAIR TABLE table_name

2014-02-18 10:45:58 9501

转载 hive:MoveTask

运行SQL时出了个错:SQL: INSERT OVERWRITE DIRECTORY 'result/testConsole' select count(1) from nutable; 错误信息:Failed with exception Unable to rename: hdfs://indigo:8020/tmp/hive-root/hive_2013-08-22_

2014-02-14 14:58:38 6075 2

转载 Java垃圾回收器

转自csdnJava垃圾回收器是Java虚拟机(JVM)的三个重要模块(另外两个是解释器和多线程机制)之一,为应用程序提供内存的自动分配(Memory Allocation)、自动回收(Garbage Collect)功能,这两个操作都发生在Java堆上(一段内存快)。某一个时点,一个对象如果有一个以上的引用(Rreference)指向它,那么该对象就为活着的(Live),否则死亡(D

2014-01-20 23:03:09 886

转载 Spark on Yarn:性能调优

1. 调优经验应该说,Spark开发中,具体采用什么调优方法去优化性能,需要根据具体算法和实现而定,适合我们这个问题的方法不一定就适合其他问题,但希望我们的经验可以让其他人少踩点坑,更多的调优方法还可以参考官方文档中的 Configuration 和 Tuning 部分。(1)配置项的使用熟悉Hadoop开发的同学应该对配置项不陌生。根据不同问题,调整不同的配置项参数,

2014-01-17 18:42:35 9476

原创 shark应用cache

转自官网Unlike Hive, Shark allows users to exploit this temporallocality by caching their working set of data, or in database terms, to createin-memory materialized views. Common data types can be cac

2014-01-17 17:30:25 1727

转载 Shark本地安装及可能出现的问题

1.下载scala wget http://www.scala-lang.org/files/archive/scala-2.9.3.tgz 最新有2.10.2.tgz文件 tar xvfz scala-2.9.3.tgz 2.下载shark and hive压缩包 wget http://spark-project.org/download/shark-0.7.0

2014-01-16 18:06:54 3698

转载 Spark开发指南(0_8_1中文版)

转自淘宝Spark开发指南简介 接入Spark Spark初始化Master URLs在集群上部署代码弹性分布式数据集并行集合 (Parallelized Collections)Hadoop 数据集 (Hadoop Datasets)RDD 的操作转换 动作RDD 的持久化存储级别的选择共享变量广播变量 累加器

2014-01-16 09:47:57 11546

转载 hive优化

最近使用hive一个多月下来(终于完成第一期数据分析迁移工作了),当时使用的0.8的版本(现在最新版本是0.8.1),一个多月下来收获很多。从安装环境、调试、开发、业务理解、技术攻关、业务实现等,一一都体验了一把!总的来说,除了目前网上所介绍的常规hive使用和优化外。因为目前hive只支持0.20的相关版本,所以我们的环境还是使用的0.20版本的hadoop来进行搭建。

2013-04-29 18:52:07 4938

转载 hive存储格式sequencefile和rcfile的对比

源数据放在test1表中,大小 26413896039 Byte。创建sequencefile 压缩表test2,使用insert  overwrite table test2 select ...语句将test1数据导入 test2 ,设置配置项:set hive.exec.compress.output=true;set mapred.output.compre

2013-04-29 18:44:09 1398

转载 数据库水平切分的实现原理解析-分库,分表,主从,集群,负载均衡器

第1章 引言随着互联网应用的广泛普及,海量数据的存储和访问成为了系统设计的瓶颈问题。对于一个大型的 互联网应用,每天几十亿的PV无疑对数据库造成了相当高的负载。对于系统的稳定性和扩展性造成了极大的问题。通过数据切分来提高网站性能,横向扩展数据层 已经成为架构研发人员首选的方式。水平切分数据库,可以降低单台机器的负载,同时最大限度的降低了了宕机造成的损失。通过负载均衡策略,有效的降低了单台 机器

2012-08-06 16:54:51 1790

转载 负载均衡,会话保持,session同步

一,什么负载均衡一个新网站是不要做负载均衡的,因为访问量不大,流量也不大,所以没有必要搞这些东西。但是随着网站访问量和流量的快速增长,单台服务器受自身硬件条件的限制,很难承受这么大的访问量。在这种情况下,有二种方案可以选择:1,对单台服务器的硬件进行更新,由双核的变成四核的,内存加大等。2,增加服务器的台数,来分担服务器的负担。以实现增加网络带宽,增加服务器的处理能力的目的。第一种

2012-08-06 16:53:54 1085

原创 立志

人无志向,柔弱无钢。  王阳明说的好,志向不确立,犹如没有舵的船,没有马嚼子的马,漂流奔放,最后将达到何处。  曾国潘曰:  志向不树立时,人就容易放松潦倒,所以心中没有一定的努力的方向。没有一定的努力的方向就不能保持宁静,不能宁静就不能心安,其根子在于没有树立志向。 [有志不在

2011-07-26 11:40:47 1065

转载 2011年5月10日

<br />哈佛有一个著名的理论:人的差别在于业余时间,而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论,你会发现,你的人生正在发生改变,坚持数年之后,成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息,看就看一些励志的影视或者文章,不要当作消遣;学会思考人生,学会感悟人生,慢慢的,你的人生将会发生变化……<br /> <br />一个人的成就,不是以金钱衡量,而是一生中,你善待过多少人,有多少人怀念你。生意人的

2011-05-10 12:56:00 763

原创 思想

<br />  中午吃饭前看窗外风景。明白了一个道理:看不到远处的风景被眼前的小零碎当住了眼。所谓一叶障目。<br />  马云谈人才三个要素:眼光、胸怀、能力。<br />  眼光应该是想的远。而人想不远是因为看不到远处。看不到远处有几点:没看远处、或者看了但被别的挡在了。<br />  反省我自己:这几年中。05-06,06-07,07-09,09-11。没有大的进展,一直被外界环境推着走或呆在原地或退步。<br />                1,很少想过远处。被各种事情困扰、一休息就玩、放松<b

2011-04-27 13:17:00 794

基于java+SSH的在线考试系统源代码

基于java+SSH的在线考试系统源代码.rar

2012-02-23

Eclipse&birt使用说明.doc

Eclipse&birt使用说明.doc Eclipse&birt使用说明.doc

2011-12-18

birt_api.CHM

birt_api.CHM

2011-12-18

birt报表资料_珍藏.rar

birt报表资料_珍藏: BIRT报表应用预研报告-0719.doc Birt使用经验谈chart2006.04.11.doc Birt使用小结.doc Birt学习经历.doc

2011-12-18

银行全面市场风险管理系统可行性分析报告.doc

银行全面市场风险管理系统可行性分析报告.doc

2011-06-14

ETL技术应用研究.pdf

ETL ETL 技术 ETL技术应用研究

2011-06-14

DB2 数据仓库教程.pdf

DB2数据仓库教程.pdf 珍藏珍藏珍藏

2011-06-14

美河提供.DB2基础教程.pdf

DB2 DB2教程 美河提供.DB2基础教程.pdf

2011-06-14

办公管理(OA)及多媒体会议系统.

办公管理(OA)及多媒体会议系统 好OA 办公管理 多媒体会议系统

2011-06-08

山寨版qq源码和坦克大战游戏源码素材文档

山寨版qq源码和坦克大战游戏源码素材文档

2011-06-08

PowerDesigner数据库建模技术.pdf

PowerDesigner数据库建模技术.pdf 别的参照我的另一个资源《powerdesigner资料集锦.rar》 包括:【1】-包括内容(RQM,Report,CDM,PDM),参考了《PowerDesigner数据库系统分析设计与应用》; 【2】 【3】 【4】 【5】-常用技巧及常见问题解决

2011-05-19

JavaWeb标签大全.CHM

JavaWeb标签大全.CHMJavaWeb标签大全.CHM

2011-05-04

jQuery1.4.2_API帮助文档简体中文版.chm

jQuery1.4.2_API帮助文档简体中文版.chm

2011-05-04

jQuery.1.4.1.参考文档.chm

jQuery.1.4.1.参考文档.chm

2011-05-04

J2EE+WEB+架构+研究文集知识及案例

J2EE WEB 架构 研究文集知识及案例

2011-04-21

flex+J2ee整合环境搭建.doc

flex+J2ee整合环境搭建.doc flex+J2ee整合环境搭建.doc

2011-04-21

JQuery实战视频教程SRC&PPT.rar

JQuery实战视频教程SRC&PPT.rar

2011-04-21

Oracle资料集锦_珍藏

Oracle 资料 透明网关配置 存储过程 索引 数据库

2011-02-17

Oracle10卸载_sql2005数据库驱动

Oracle10 卸载 好 珍藏Oracle10 卸载 好 珍藏sql2005数据库驱动

2011-02-17

java反编译工具_强大

java反编译java反编译java反编译java反编译

2010-11-16

amchart好用的flashchart组件

amchart是免费的flash chart组件

2010-08-04

css-html资源集锦

css-html资源集锦网页制作集锦,分享! 好!css html DHTML 精通CSS CSS手册

2010-06-22

ext集锦_ajax学习必备

ext ajax 学习 基础 工具ext集锦_ajax学习必备

2009-06-22

oracle存储过程集锦

oracle 存储过程 集锦,很多的存储知识、实例、视频

2009-06-22

weblogic安装及配置视频

weblogic 安装 配置 视频 weblogic 安装 配置 视频

2009-06-22

PDA仿真开发环境.zip

PDA仿真开发环境 PDA仿真开发环境PDA仿真开发环境 PDA仿真开发环境

2008-09-07

JAVA案例开发集锦.pdf

JAVA 案例JAVA案例开发集锦.pdf

2008-09-07

Java.2认证考试指南.pdf

Java.2认证考试指南.pdf 好好 Java.2认证考试指南.pdf

2008-09-07

美河提供.罗时飞.精通spring.pdf

美河提供.罗时飞.精通spring.pdf spring 美河 .罗时飞 pdf

2008-09-07

网页设计学习资料集锦_好

网页设计学习资料集锦_好(网页设计 asp asp.net css 网页配色)

2008-09-07

Java.2实用教程.pdf

Java.2实用教程.pdf nandde

2008-09-03

Tomcat与Java.Web开发技术详解(孙卫琴).pdf

Tomcat与Java.Web开发技术详解(孙卫琴).pdf好书

2008-09-03

asp代码生成器FireAsp_Soft

asp asp代码生成器 FireAsp_Soft

2008-09-03

jsp+struct+hibernate+ibatis资源集锦珍藏

jsp+struct+hibernate+ibatis资源集锦珍藏,太好了

2008-03-15

HTML+Ajax+DOM+JavaScript+CSS+XML(文档合集) .rar

HTML+Ajax+DOM+JavaScript+CSS+XML(文档合集)附javascript源码 .rar

2008-03-14

FCKeditor在线编辑器

FCKeditor编辑器,

2008-02-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除