自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Cloudra公司CCP:DS——认证数据专家

原文:http://vision.cloudera.com/24195/。译文:每天我都能看到大数据如何改变我们生活的文章。数据科学家们正在生物医药领域找寻新的方法治愈癌症,帮助银行与欺诈做斗争,警察打击与毒品有关的犯罪,以及明星球员间的斗争。看上去我需要的是一个象Hadoop的分析平台和一大堆数据,然后可操作的见解就会扑过来,对吗?嗯,不完全是。虽然Hadoo

2014-04-24 08:06:02 4360 1

转载 MariaDB 基金会发布 MariaDB 10 的通用版

2014年3月31日,MariaDB基金会发布了令人期待已久的MariaDB10的通用版本。MariaDB10数据库一直为很多应用开发者提供着高效的性能和全面的功能。自从2009年创立以来,MariaDB 已经打造了一个充满活力的开源社区,并一直引导着数据库创新发展之路。2013年,Wikipedia的维护组织Wikimedia基金会宣布把自己的大多数产品从MySQL 迁移到MariaDB

2014-04-17 16:51:49 867

转载 同一个 bug 不要修复两次

Noah Sussman 曾经写过一篇文章 《你应该测试的东西:软件系统测试清单》这份清单里面大部分东西都是有帮助的。然而我觉得它所鼓励的理念,本质上来说有误。它的理念基本上是这样:找出开发者常犯的错误,然后确保你写了测试样例来检查你没有犯了这样的错误。然而这个做法的问题是它本质上是一种“打地鼠”式的调试方式,并没有终结掉那些该死的 bug。一个更有效的做法是《Easy P

2014-04-16 10:00:31 711

原创 Hadoop不是低成本方案

Hadoop是流行的大数据并行计算体系,廉价横向扩展是它的主要特点。但Hadoop的廉价指的是硬件和软件授权成本,而不是总体成本。在学习成本、开发成本、管理成本上Hadoop并不总是占优,有时候甚至连硬件成本也不占优。

2014-04-15 09:19:01 2505

转载 成为更优秀的开发人员:知道自己在开发什么

有个老故事:有一位参观者来到IT部门参观,遇到一位软件开发人员。参观者询问他在做什么,开发人员答道:“写代码。”  参观者走到了下一个隔间,然后向另一位开发人员问出同样的问题,他回答到:  “做网页。”  于是参观者又走到了下一个隔间,向第三位开发人员询问同样的问题,这次,这个开发人员回答道:  “我在写一个web应用程序,可以让我们客服更好协助客户。”

2014-04-14 09:29:35 518

转载 使用Java处理大文件

我最近要处理一套存储历史实时数据的大文件fx market data,我很快便意识到,使用传统的InputStream不能够将它们读取到内存,因为每一个文件都超过了4G。甚至编辑器都不能够打开这些文件。在这种特殊情况下,我可以写一个简单的bash脚本将这些文件分成更小的文件块,然后再读取它。但是我不想这样做,因为二进制格式会使这个方法失效。处理这个问题的方式通常就是使用内存映射

2014-04-11 10:39:06 945

转载 Hadoop集群环境下的网络架构的设计与优化

http://www.thebigdata.cn/Hadoop/9435.html大数据时代,研究大数据的IT 厂商把研究重心放在优化大数据系统软件架构、优化业务逻辑、优化数据分析算法、优化节点性能等方向,而忽略了大数据环境基础设置中网络环节的评估和优化。本文介绍了思科公司在Hadoop 集群环境下的网络架构设计与优化经验。  大数据Hadoop环境网络特性Hadoop 集

2014-04-10 09:29:59 634

转载 Google Dremel 原理 - 如何能3秒分析1PB

发布于: 2012 年 8 月 23 日 由 颜开http://www.yankay.com/google-dremel-rationale/简介Dremel 是Google 的“交互式”数据分析系统。可以组建成规模上千的集群,处理PB级别的数据。MapReduce处理一个数据,需要分钟级的时间。作为MapReduce的发起人,Google开发了Dremel将处理时间缩

2014-04-08 11:18:59 479

原创 R语言和集算器进行简单的行间运算

行间计算很常见,累计,同期比,环比这些都会涉及到。R语言和esProc都有很好的行间计算能力,但又略有区别。下面这个案例涉及一些基本的行间运算,可以通过它说明二者的区别:某公司的销售部门希望统计出优秀的销售员,即给公司提供前一半销售额的销售员。数据主要来自MSSQL数据库的订单表:salesOrder,主要字段包括订单编号:orderID,销售员姓名:name,销售额:sales,订单时间:s

2014-04-04 15:07:00 1678

原创 undo异常总结和恢复思路

UNDO异常报错千奇百怪,针对本人遇到的比较常见的undo异常报错进行汇总,仅供参考,数据库恢复过程是千奇百怪的,不能照搬硬套.   ORA-00704/ORA-00376   ORA-00704: bootstrap process failure   ORA-00604: error occurred at recursive SQL level 2   ORA

2014-04-03 15:55:48 2049

转载 SQL借助于NewSQL开始回归

新一轮的数据库开发风潮展现出了向SQL回归的趋势,只不过这种趋势并非是在更大、更好的硬件上(甚至不是在分片的架构上)运行传统的关系型存储,而是通过NewSQL解决方案来实现。在市场被NoSQL(一开始叫做“No more SQL”,后来改为“Not only SQL”)逐步蚕食后,近一段时间以来传统的SQL开始回归。其中广为传颂的一个解决方案就是分片,不过对于某些情况来说这还远远不够。因此,人们推

2014-04-02 08:37:58 666

转载 安全的数据库部署自动化

通过将数据库对象变更脚本写进传统的版本控制系统中实现自动化的做法有局限性、不灵活、与数据库本身脱节,而且可能不合标准,并容易因为脚本冲突丢失目标环境的更新。使用“比较&同步”工具实现自动化则是一件有风险的事。这两种理念没有结合在一起,一个不知道另一个,必须找出一种更好的解决方案。为了将数据库恰当地自动化,必须考虑下列因素:1、在执行一个工作流程时,有恰当的数据库版本控制系统,应对数

2014-04-01 16:13:56 1239

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除