自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(184)
  • 资源 (10)
  • 收藏
  • 关注

原创 Linking pronunciation in English

1.constant+vowelstand upgive upget up2.vowel+vowel2.1 i:/i/ei/ai/oi [j]stay upcarry it2.2 u:/u/eu/au [w]go onhow about3.constant+constant3.1 bus station 3.2 constant + hI l

2014-11-05 20:30:55 783

转载 百度实时计算平台的实现和应用

摘要:当前,业界知名的实时计算系统有Google的MillWheel 、Twitter开源的Storm、Spark Streaming等。百度自主研发了国内规模最大的实时计算平台——Dstream和TM。它们各有千秋,适用于不同的业务场景。“大数据”在互联网行业中已是普遍现象,一家公司每天累积的用户行为数据甚至已不能用TB来衡量。海量数据对实时分析和计算提出了更高的要求,实时处理程序必

2014-11-04 12:03:09 2884

转载 Normalization of Database

http://www.studytonight.com/dbms/database-normalization.php

2014-11-03 11:12:56 442

转载 Kubernetes初探:原理及实践应用

Kubernetes是Google开源的容器集群管理系统。它构建于docker技术之上,为容器化的应用提供资源调度、部署运行、服务发现、扩容缩容等整一套功能,本质上可看作是基于容器技术的mini-PaaS平台。本文旨在梳理Kubernetes的架构、概念及基本工作流,并且通过运行一个简单的示例应用来介绍如何使用Kubernetes。总体概览如下图所示是我初步

2014-11-03 10:54:23 936

转载 HP Helion实现OpenStack用户无缝升级

摘要:陪伴Helion走过了风风雨雨,在这里与大家分享下我对Helion的理解:Helion可以说是HP转型中的必然产物,分久必合,合久必分。Helion就是在“合”这个纬度的输出。那么Helion又是基于什么?陪伴Helion走过了风风雨雨,在这里与大家分享下我对Helion的理解:Helion可以说是HP转型中的必然产物,分久必合,合久必分。Helion就是在“合”这个纬度的输出。

2014-11-03 10:51:49 733

转载 做APM领域德国队,笃信技术和极简体验的听云打造历程

摘要:服务客户包括Google、 IBM、 BAT等超过500家大型企业,同时也是全球领先技术资讯公司Gartner在APM领域国内唯一研究关注的公司,听云以其领先的技术实力和极简的用户体验发力APM市场。时下,APM领域异常火爆,国内从事APM的企业也越来越多,国外APM领域的主要技术提供者是New Relic、AppDynamics等,但是由于本土化问题以及用户体验差,上手难度大等

2014-11-03 10:49:46 1600

转载 Thinking in BigData(六)大数据技术核心之ETL

前几篇文章都是根据自己所见所知,在前人的基础上加以整合,对大数据概念有了初步的了解。接下来的四篇文章,抛开大数据的概念与基本知识,进入核心。我们从:数据采集、数据存储、数据管理、数据分析与挖掘,四个方面讨论大数据在实际应用中涉及的技术与知识点。核心技术架构挑战:1、对现有数据库管理技术的挑战。2、经典数据库技术并没有考虑数据的多类别(variety)、SQL(结构化

2014-11-03 10:43:29 941

转载 历史上最伟大的 12 位程序员

所谓程序员,是指那些能够创造、编写计算机程序的人。不论一个人是什么样的程序员,或多或少,他都在为我们这个社会贡献着什么东西。然而,有些程序 员的贡献却超过了一个普通人一辈子能奉献的力量。这些程序员是先驱,受人尊重,他们贡献的东西改变了我们人类的整个文明进程。下面就让我们看看人类历史上 最伟大的12位程序员。1、第一位计算机程序员:埃达·洛夫莱斯 Ada Lovelace埃达·洛夫莱

2014-11-03 10:40:00 921

转载 Eight Docker Development Patterns

In the past I've written about my "home cloud" that used to be OpenVz containers, and how I've come to advocate rebuilding the "build server" for every buildDocker has quickly become one of my fav

2014-10-31 23:49:15 701

转载 Columnar Database

A column store database is a database which stores table data as sections of columns of data rather than as rows of data. That means all the values for one particular column will be stored together an

2014-10-31 23:10:44 664

转载 将 SPSS 分析技术应用于大数据

试用 SPSS with IBM Netezza、InfoSphere BigInsights 和 InfoSphere Streams 执行大规模分析了解 SPSS® 中处理大数据的新功能。现在可以对 SPSS 分析资产轻松地进行修改,以便连接到不同的大数据来源,它们还可以在不同的部署模式(批处理或实时模式)下运行。SPSS 平台的组件现在可与 IBM Netezza、I

2014-10-31 14:32:06 3437

转载 database Scaling、Partitioning and Sharding

ScalingHorizontal Scaling:is about addingmore machines to enable improved responsiveness and availability ofany system including database. Theidea is to distribute the work load to multiple machin

2014-10-30 17:14:17 870

转载 database schema

A database schema (/ˈski.mə/ skee-mə) of a database system is its structure described in a formal language supported by thedatabase management system (DBMS) and refers to the organization ofdata

2014-10-30 16:22:27 515

转载 数据分析:在天猫开一个店需要多少成本?

有的人做了3、4年电商,还弄不明白“成本”里包含哪几项。事实上,在今天,如果你在“天猫”开店经营,20元出厂价的产品,以3倍的价60元卖出去,结果也只能是亏本。一、一般的商家举个例子,我来帮大家做个测算,其实“成本”不止是产品本身,而是产品整个销售过程中不可避免发生的费用,最基础的来说,“成本”一共包括6大项:1、产品成本(比如20元);2、包装成本(内包装,外包装,吊牌,售后卡,

2014-10-30 10:27:05 2615

转载 腾讯TDW千台Spark千亿节点对相似度计算

摘要:本文将介绍腾讯TDW使用千台规模的Spark集群来对千亿量级的节点对进行相似度计算这个案例,通过实验对比,我们优化后的性能是MapReduce的6倍以上,是GraphX的2倍以上。相似度计算在信息检索、数据挖掘等领域有着广泛的应用,是目前推荐引擎中的重要组成部分。随着互联网用户数目和内容的爆炸性增长,对大规模数据进行相似度计算的需求变得日益强烈。在传统的MapReduce框架下进

2014-10-30 09:51:25 660

转载 3分钟,9个Q&A让你快速知道Docker到底是什么

摘要:Google、Amazon、Microsoft、VMware都纷纷加入Docker和Container所掀起的新时代云端虚拟化行列,很多人还不知道Docker和Container到底是什么,下面的9个Q&A让你快速了解这一切。【编者按】不论是Google、Amazon、Microsoft、VMware都纷纷拥戴,加入Docker和Container所掀起的新时代云端虚拟化行列,这

2014-10-29 10:41:18 870

转载 浅析Facebook软件架构:Tao和BLOB的实现原理

摘要:用户数达10亿级别,Facebook每天需要存储多达4千亿的照片,面对如此庞大的数据,Facebook采用了 Tao和暖性BLOB存储系统。那么,这些存储架构是如何实现的?采用了哪些原理呢?且看本文解析。【编者按】Tao是一套针对读取进行优化的数据存储机制,并以单一地理分布实例的方式部署在Facebook当中。和Google的Megastore,Spanner地位等同,它底层持久

2014-10-29 10:37:43 1792

转载 Breakout detection in the wild

Nowadays, BigData is leveraged in every sphere of business: decision making for new products, gauging user engagement, making recommendations for products, health care, data center efficiency and more

2014-10-29 10:34:31 912

转载 Understanding RPO and RTO

Recovery Point Objective (RPO) and Recovery Time Objective (RTO) are oneof the most important parameters of a disaster recovery or data protectionplan. These objectives guide the enterprises to choose

2014-10-28 14:54:59 1471

转载 Kevin Slavin: How Algorithms Shape Our World

0:11This is a photograph by the artist Michael Najjar, and it's real, in the sense that he went there to Argentina to take the photo. But it's also a fiction. There's a lot of work that went into it

2014-10-28 10:41:56 1100

转载 图数据挖掘浅析

互联网发展至今,数据规模越来越大,数据结构越来越复杂,而且对系统的需求越来越高。如果学习过数据结构,那么都知道图是放在最后一个结构,当你学习了图,那么应该感知到前面的链表,队列,树都是在图上面加了一些约束而派生出来的结构。所以图是一个一般性的结构,可以适应于任何结构类型的数据。那么图数据挖掘是干什么的呢?难道是开着挖掘机来进行挖掘?还是扛着锄头?下面讲讲什么是图数据挖掘。  一、什么是图数

2014-10-28 10:24:14 1023

转载 关于未来网站访问速度及后台查询速度的优化建议

1、 数据库设计:数据库内所有表结构均添加索引调整原因:近日数据库压力很大,经查有些大数据量表的查询速度很慢,导致数据库服务器CPU一直持续90%-100%,将这些表添加索引后,CPU很快变正常。2、 将大数据表做分库、分区处理:具体操作如下:1)、将大数据表与主数据库分离,单独新建一个数据库,然后将这些表做分区;2)、将数据插入到消息队列内,后台利

2014-10-28 10:23:03 924

转载 凯文•斯拉文:算法塑造世界

The Making of a Fly,这是一本1992年出版的学术书籍,受研究者喜欢。2011年4月8日,一家书商对其的售价为170万美元,另一家书商标价220万美元。如果那时你买了他,说不定还捡到便宜了,因为此后书价一直在涨,4月18日涨到直到23,698,655.94美元。当然,这还不包括3.99美元的运输费!这本书研究苍蝇遗传学,晦涩难懂,但何以高达2370

2014-10-28 10:21:31 1000

转载 Eight big data myths that need busting

"When something becomes familiar, it starts to feelnormal," Beyer said during his talk at this year's Gartner Symposium/ITxpo."Our job, as IT pros, is to make big data normal by 2020."CIOs can hel

2014-10-28 10:08:25 435

转载 8 SQL-on-Hadoop frameworks worth checking out

The language of data is SQL, so naturally lots of tools have been developed to bring SQL to Hadoop. They range from simple wrappers on top of Map Reduce to full data warehouse implementations built on

2014-10-28 10:00:42 756

转载 对象存储的新认识

这里又单独说一下对象存储,主要借鉴百度百科,对对象存储有了一点认识首先,对象存储系统(Object-Based Storage System)是综合了NAS和SAN的优点,同时具有SAN的高速直接访问和NAS的数据共享等优势,提供了高可靠性、跨平台性以及安全的数据共享的存储体系结构。传统块存储与对象存储结构对比示意图:对象存储主要由对象(object),对象设,备(Obje

2014-10-27 09:45:00 477

转载 NUMA (non-uniform memory access) and vNUMA

NUMA (non-uniform memory access) is amethod of configuring a cluster of microprocessorina multiprocessing system so that they can share memory locally, improving performanceand the ability of the sy

2014-10-26 17:39:44 936

转载 数据挖掘-分词入门

谷歌4亿英镑收购人工智能公司DeepMind,百度目前正推进“百度大脑”项目,腾讯、阿里等各大巨头布局深度学习。随着社会化数据大量产生,硬件速度上升、成本降低,大数据技术的落地实现,让冷冰冰的数据具有智慧逐渐成为新的热点。要从数据中发现有用的信息就要用到数据挖掘技术,不过买来的数据挖掘书籍一打开全是大量的数学公式,而课本知识早已还给老师了,难以下手、非常头大!我们可以跳过数学公式,先看看我

2014-10-26 17:27:53 601

转载 What's the LDAP?

The LightweightDirectory AccessProtocol --commonly referred to simplyas LDAP -- is the mostwidely usednetwork protocol used to access adirectory ofusers,computers, groups, etc.LDAPis normallyused

2014-10-25 09:36:43 356

转载 许鹏:使用Spark+Cassandra打造高性能数据分析平台

摘要:Spark,强大的迭代计算框架,在内存数据计算上无可匹敌。Cassandra,优异的列式存储NoSQL,在写入操作上难逢敌手。自本期《问底》,许鹏将结合实际实践,带大家打造一个由Spark和Cassandra组成的大数据分析平台。【导读】笔者(许鹏)看Spark源码的时间不长,记笔记的初衷只是为了不至于日后遗忘。在源码阅读的过程中秉持着一种非常简单的思维模式,就是努力去寻找一条贯

2014-10-25 09:05:00 2196

转载 How New Types of DDoS Affect the Cloud

At a recent security meeting with a large healthcareorganization, I had the privilege of looking at the logs of a private cloudinfrastructure which I helped design. They showed me a couple of interest

2014-10-25 08:53:19 406

转载 12 things I hate about Hadoop

Hadoop is a wonderful creation, but it's evolving quickly and itcan exhibit flaws. Here are my dozen downers [ Also on InfoWorld: Harness the power of Hadoop -- find outhow in InfoWorld's Deep Dive

2014-10-25 08:47:07 466

转载 又好又快,免费学习编程的9个地方

Code.org是美国非营利组织在一些科技大佬的鼎立支持下正计划将高品质计算机科学课程带进学校。不过,不一定非要在大佬的支持下学习编码才有动力,还有什么比免费更有吸引力?下面就来梳理一下免费的编码培训机构。编程不再是超级极客的独家专利,即使你只是一个销售员、驾驶员或者是一个商人,都可以学着去编程,因为这是一项技能,就像英语也是一个交流技能一样,很有价值的,而且会编程的人看上去都很屌炸天哦!

2014-10-24 23:53:16 457

转载 VXLAN (Virtual Extensible LAN)

Virtual Extensible LAN (VXLAN) is a proposed encapsulation protocol for running an overlay network on existing Layer 3 infrastructure. An overlay network is a virtual network that is built on top of

2014-10-24 17:30:21 655

转载 Announcing Kylin: Extreme OLAP Engine for Big Data

We are very excited to announce that eBay has released to the open-source community our distributed analytics engine: Kylin (http://kylin.io). Designed to accelerate analytics on Hadoop and allow th

2014-10-24 10:29:27 1076

转载 【问底】徐汉彬:大规模网站架构的缓存机制和几何分形学

摘要:缓存机制简单总结可以说是空间换时间,被用于提升系统交互的效率。而有趣的是,这种缓存机制令人惊奇并且优美的遵循着“几何分形”的规律,也就是几何分形学中的“自相似性”。【导读】徐汉彬曾在阿里巴巴和腾讯从事4年多的技术研发工作,负责过日请求量过亿的Web系统升级与重构,目前在小满科技创业,从事SaaS服务技术建设。在过去的工作中,徐汉彬从事各类缓存建设和优化,遇到问题无数,从各

2014-10-24 09:56:55 593

转载 eBay open sources a big, fast SQL-on-Hadoop database

摘要:eBay已经开源了一种数据库技术—— Kylin,它利用了分布式处理和HBase数据存储技术,目的是让Hadoop的SQL查询返回更快的结果。【编者按】eBay开源了一种名为 Kylin 的数据库技术,eBay在周三的一篇博客上分享了Kylin 的诸多细节,基于 Hadoop 提供 SQL 接口和 OLAP 接口,支持 TB 到 PB 级别的数据量,Kylin旨在减少Hadoop

2014-10-24 09:54:54 686

转载 自学大数据:用以生产环境的Hadoop版本比较

一、背景介绍生产环境中,hadoop的版本选择是一个公司架构之时,很重要的一个考虑因素。这篇文章根据就谈谈现在主流的hadoop版本的比较。如果有不同意见,或者指正,希望大家能交流。Apache Hadoop:Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是

2014-10-24 09:53:16 676

转载 Dom0 and Driver Domain

Dom0, or domain zero to expand the abbreviation, is the initial domain started by the Xen hypervisor on boot. The Xen hypervisor is not usable without Domain-0 ("dom0").The dom0 is essentially t

2014-10-23 17:32:38 361

转载 SR-IOV 简介

SR-IOV 技术是一种基于硬件的虚拟化解决方案,可提高性能和可伸缩性。SR-IOV 标准允许在虚拟机之间高效共享 PCIe(Peripheral Component Interconnect Express,快速外设组件互连)设备,并且它是在硬件中实现的,可以获得能够与本机性能媲美的 I/O 性能。SR-IOV 规范定义了新的标准,根据该标准,创建的新设备可允许将虚拟机直接连接到 I/O 设

2014-10-23 16:47:07 3104

big data presentation of talkingdata

big data presentation of talkingdata

2014-11-04

f4: Facebook’s Warm BLOB Storage System

Facebook’s corpus of photos, videos, and other Binary Large OBjects (BLOBs) that need to be reliably stored and quickly accessible is massive and continues to grow. As the footprint of BLOBs increases, storing them in our traditional storage system, Haystack, is becoming in- creasingly inefficient. To increase our storage efficiency, measured in the effective-replication-factor of BLOBs, we examine the underlying access patterns of BLOBs and identify temperature zones that include hot BLOBs that are accessed frequently and warm BLOBs that are accessed far less often. Our overall BLOB storage sys- tem is designed to isolate warm BLOBs and enable us to use a specialized warm BLOB storage system, f4. f4 is a new system that lowers the effective-replication-factor of warm BLOBs while remaining fault tolerant and able to support the lower throughput demands. f4 currently stores over 65PBs of logical BLOBs and reduces their effective-replication-factor from 3.6 to either 2.8 or 2.1. f4 provides low latency; is resilient to disk, host, rack, and datacenter failures; and provides sufficient throughput for warm BLOBs.

2014-10-29

The Linux Command Line

This book is a broad overview of “living” on the Linux command line. Unlike some books that concentrate on just a single program, such as the shell program, bash, this book will try to convey how to get along with the command line interface in a larger sense. How does it all work? What can it do? What's the best way to use it? This is not a book about Linux system administration. While any serious discussion of the command line will invariably lead to system administration topics, this book only touches on a few administration issues. It will, however, prepare the reader for additional study by providing a solid foundation in the use of the command line, an essential tool for any serious system administration task. This book is very Linux-centric. Many other books try to broaden their appeal by in-cluding other platforms such as generic Unix and OS X. In doing so, they “water down” their content to feature only general topics. This book, on the other hand, only covers contemporary Linux distributions. Ninety-five percent of the content is useful for users of other Unix-like systems, but this book is highly targeted at the modern Linux command line user.

2014-10-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除