2014年11月_miller_lover

12月 11月 10月 09月

原创 VBA code of batch copy hyperlink address

Sub AddHyperlink()Application.ScreenUpdating = FalseWith ActiveSheetlastrow = .Cells(.Rows.Count, "A").End(xlUp).RowFor i = 1 To lastrow Cells(i, 2) = Cells(i, 1).Hyperlinks(1).

2014-11-30 10:56:03 599

转载十道海量数据处理面试题

1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash_map进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这1000个最大的I

2014-11-28 09:40:11 393

转载有“容”乃大：Docker容器，十万网店轻松托管

摘要：Shopify是一家为数十万家网店提供解决方案的公司，网站主要的框架是Ruby on Rails，为了更易扩展和管理业务，开始使用Docker和CoreOS技术。Shopify软件工程师Graeme Johnson介绍了如何在生产环境中使用容器技术。【编者按】 Shopify是一家提供电商网店解决方案的公司，目前服务的网店数有10万家以上（Tesla 也是它的用户）。网站主要的框

2014-11-28 09:32:16 808

转载 Hadoop面试45个题目及答案

1.Hadoop集群可以运行的3个模式？单机（本地）模式伪分布式模式全分布式模式2. 单机（本地）模式中的注意点？在单机模式（standalone）中不会存在守护进程，所有东西都运行在一个JVM上。这里同样没有DFS，使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序，这也是最少使用的一个模式。3. 伪分布模式中的注意点？伪

2014-11-28 09:31:45 761

SQL Server 中维护了一组表用于存储 SQL Server 中所有的对象、数据类型、约束条件、配置选项、可用资源等信息，这些信息称为元数据信息（Metadata），而这些表称为系统基础表（System Base Tables）。在这些基础表中，存在于 master 数据库中的一部分基础表包含系统级范围的信息。存在于特定数据库（也包含 master db）中的基础表包含属于该特定数据库的对象

2014-11-28 09:26:50 500

转载开放创新的华为存储更加坚定业务驱动步伐

在2014 HCC大会上，华为向外界描绘了“全联接”的美好愿景。在这个目标之下，华为希望帮助政府、企业和个人建立无缝隙的全联接网络：政府能利用IT技术做好服务，企业基于基础设施可激发创新能力，获取新的商机;而个人能获得更好的数字化生活。在全联接时代，存储技术将会朝着怎样的方向发展?在这种背景下，再看华为第二届存储技术峰会，就显得颇具含义。2014年10月底，第二届华为存储技术峰会在

2014-11-26 20:46:52 919

转载阿里超大数据中心“异地双活”实践

灾备系统和应急管理体系建设是数据中心永不变更的热点话题。从“两地三中心”、“同城双活”到“异地双活”，业内的讨论层出不穷。即使在容灾备份领域较早入手的金融行业，在灾备切换时也是谨慎再谨慎的，在历年“真实切换”演练时“手软”的例子更是不胜枚举。究其根源，除了应急预案不完善、灾难恢复演练不到位之外，单纯硬件和软件很难完全解决业务连续性问题才是关键。事实上，将业务系统切换到灾备中心容易，但故障消除后，将

2014-11-25 09:37:19 3979

转载什么是IndexedDB：Web离线数据库入门简介及基础教程

IndexedDB是什么简单来说IndexedDB是HTML5引入的一种可以在Web浏览器使用的数据库，用来持久化大量数据。它可以让你的Web应用程序有非常强大的查询能力，并且可以离线工作。IndexedDB的数据操作直接使用JS脚本，不依赖SQL语句（最初的Web SQL数据库己被废弃），操作返回均采用异步。下文来自： IndexedDB 规范客户端需要存储大量局部对象，

2014-11-25 09:36:14 1025

转载揭秘阿里CDN核心技术（http://wenku.baidu.com/view/ffc63474b4daa58da1114a45.html?re=view）

中国专业CDN行业近年来呈现了迅猛增长的态势。根据国内咨询机构艾瑞的统计，从2006年至2012年，中国第三方CDN市场营收规模增长率均保持在30%以上。艾瑞预测，未来几年CDN市场将继续保持40%以上的高增长。今天将会给大家揭秘阿里CDN核心技术！图片来自阿里云-核心系统部朱照远。构建高效、安全的CDN，阿里CDN核心技术揭秘阿里云-核心系统部朱照远（叔

2014-11-24 15:00:10 5842

转载偏爱MySQL，Nifty使用4个Web Server支撑5400万个用户网站

摘要：自基于HTML5的WYSIWYG网页制作平台推出后，用户在Nifty上建立的网站已超过5400万个，平均每天需支撑7亿的HTTP请求，然而如果聚焦某个具体的网站，其PV甚至不超过100，那么Nifty又使用了什么策略解决这些长尾问题？【编者按】Nifty运营网站已经有很长一段时间，而在基于HTML5的WYSIWYG网页制作平台推出后，用户在该公司建立的网站已超过5400万个，同时

2014-11-24 14:57:14 673

转载安全科普：什么是暴力破解攻击？如何检测和防御？

众所周知，iCloud艳照门其实并不高明，黑客通过暴力破解攻击不断尝试登录用户的账号名和密码，最终获取好莱坞明星的iCloud账号。什么是暴力破解攻击？怎样检测暴力破解攻击以及怎样防护呢？什么是暴力破解攻击？暴力破解攻击是指攻击者通过系统地组合所有可能性（例如登录时用到的账户名、密码），尝试所有的可能性破解用户的账户名、密码等敏感信息。攻击者会经常使用自动化脚本组合出正确的用户名和

2014-11-24 14:33:49 10029

转载科普Spark，Spark是什么，如何使用Spark

本文章可以解答以下问题：1.Spark基于什么算法的分布式计算（很简单）2.Spark与MapReduce不同在什么地方3.Spark为什么比Hadoop灵活4.Spark局限是什么5.什么情况下适合使用Spark什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spar

2014-11-24 14:25:04 749

转载 Docker libcontainer unifies Linux container powers

Summary: Containers are finally coming into their own as a virtualization alternative, but until now their programs were incompatible. Now, the major container players are agreeing to line up behind

2014-11-23 15:22:00 626

转载以Amazon、豆瓣网为例，探索推荐引擎内部的秘密

随着 Web 技术的发展，使得内容的创建和分享变得越来越容易。每天都有大量的图片、博客、视频发布到网上。信息的极度爆炸使得人们找到他们需要的信息将变得越来越难。传统的搜索技术是一个相对简单的帮助人们找到信息的工具，也广泛的被人们所使用，但搜索引擎并不能完全满足用户对信息发现的需求，原因一是用户很难用恰当的关键词描述自己的需求，二是基于关键词的信息检索在很多情况下是不够的。而推荐引擎的出现，使用户获

2014-11-20 18:15:44 517

转载大数据背景下的“按图索骥”及基于图片内容搜索的技术

大数据浅析到底什么是大数据（Big data）呢？大数据通常是用来形容大量的非结构化或半结构化的数据，这样的数据要想将他们转化为关系型数据用作日后分析使用所需的前期处理需要花费高昂的代价。而大数据技术，就是从各种类型的数据中快速获得有价值信息的技术。一般来说大数据有这样 4 个特点：容量（Volume）、种类（Variety）、价值（Value）和速度（Ve

2014-11-20 18:14:25 3491 1

转载高可用、开源的Redis缓存集群方案

由于单台Redis服务器的内存管理能力有限，使用过大内存的Redis又会使得服务器的性能急剧下降，一旦服务器发生故障将会影响更大范围业务，而Redis 3.0 beta1支持的集群功能还不适合生产环境的使用。于是为了获取更好的Redis缓存性能及可用性，很多公司都研发了Redis缓存集群方案。现对NetFlix、Twitter、国内的豌豆荚在缓存集群方面的解决方案进行一个汇总，以供读者参考，具体内

2014-11-20 16:07:40 1346

转载 AWS re:Invent – Performance Enhancements to Compute and Storage Services

At AWS re:Invent 2014, Amazon has announced enhancements to Amazon EC2, Amazon S3 and Amazon EBS services.Amazon EC2 is all set to get a new instance type called C4. Based on Intel Xeon E5-2666

2014-11-20 15:19:19 952

转载 Google推出容器引擎服务

在近期召开的Google Cloud Platform Live会议上，Google副总裁Brian Stevens宣布了支持Docker的容器引擎Alpha版本的发布。Google容器引擎是结合Google公司在建立和运行基于容器的分布式系统时的经验，通过对内部系统的重新设计而提出的一项新服务。该引擎由开源技术Kubernetes提供支持，使得开发人员可以在Google的云平台中的虚拟机中运行和

2014-11-20 15:15:49 1232

转载【图说】OpenStack能够做什么？

摘要：经过几年来的发展，OpenStack开源平台越来越受到企业的重视。经IDC针对200位企业IT决策者进行调研，结果显示，有60%的企业计划使用OpenStack。

2014-11-19 11:42:25 759

转载【数据分析】电商数据挖掘之关联算法（一）

所谓关联，反映的是一个事件和其他事件之间依赖或关联的知识。当我们查找英文文献的时候，可以发现有两个英文词都能形容关联的含义。第一个是相关性relevance，第二个是关联性association，两者都可以用来描述事件之间的关联程度。其中前者主要用在互联网的内容和文档上，比如搜索引擎算法中文档之间的关联性，我们采用的词是relevance；而后者往往用在实际的事物之上，比如电子商务网站上的商品之间

2014-11-18 09:45:43 4884

转载放眼全球，盘点国外非常有潜力的云计算和大数据公司

某一天，当你踏进美国的某一家百货商店，室内安装的摄像头会监视着你的一举一动，几分钟以后，你走过的过道、你挑选或放下的产品、你最后选择购买的东西甚至你拿起又放下物品时刹那间的表情，都会被摄像头抓取并发送至某家软件公司。当然这些并不是怀疑你是扒手才这么做，只是我们身处一个大数据的时代，这些视频只是供他们进行数据分析。云计算和大数据近年来蓬勃发展，它们改变了人类生活的技术创新。在云计算和大数据的

2014-11-18 09:29:21 2793

转载 Hadoop YARN中内存和CPU两种资源的调度和隔离

同时支持内存和CPU两种资源的调度（默认只支持内存，如果想进一步调度CPU，需要自己进行一些配置），本文将介绍Hadoop YARN是如何对这些资源进行调度和隔离的。　　在YARN中，资源管理由ResourceManager和NodeManager共同完成，其中，ResourceManager中的调度器负责资源的分配，而NodeManager则负责资源的供给和隔离。ResourceMan

2014-11-17 17:11:22 538

转载浅谈Hadoop YARN资源隔离机制

资源调度和资源隔离是YARN作为一个资源管理系统，最重要和最基础的两个功能。资源调度由ResourceManager完成，而资源隔离由各个NodeManager实现，在文章“Hadoop YARN中内存和CPU两种资源的调度和隔离”中，我已经介绍了YARN的内存和CPU的资源隔离，本文将介绍YARN在资源隔离方面的一些进展。当谈及到资源时，我们通常指内存，CPU和IO三种资源。

2014-11-17 17:08:40 845

转载 Joyent开源云计算技术，欲挑战OpenStack

近期，机器学习领域专家们关于深度学习的一些言论引起了极大的轰动。同时，关于深度学习的开创性和整体架构也在学术界引发了相当的讨论。伴随着人工智能开始进入进一步开发应用阶段，人们意识到它的成功与否完全取决于其实用性。　　星期二，我和IBM沃森研究中心的副总裁John Gordon先生有过一次半个小时的专访。在专访中，Gordon先生从始至终都不认可人们对人工智能系统“沃森”的预期和它实际能做什

2014-11-16 18:55:54 569

转载内存计算技术那家强？SPARK vs HANA

最近业界有很多技术和产品都认为属于内存计算的范畴，由于我个人也从事于内存计算产品的研发，所以想借个机会，跟各位聊聊到底什么是内存计算技术，以及比较一些现在两种比较主流的内存计算技术Apache Spark和SAP HANA，它们的特点和区别。什么是内存计算技术？关于内存计算，就像云计算和大数据一样，其实无论在百度百科还是Wikipedia都没有非常精确的描述，但是有几个共通的关键点

2014-11-16 18:53:56 1563

转载谷歌分析大数据怎么它就这么快？

谷歌分析存储了大量统计数据，包括来自世界各地的互联网网站统计数据。检索功能可以从如此巨量的数据中快速返回要求谷歌具备特殊的解决方案，必须要满足在任何时候有更多数据需要存储时能很容易地扩展。在谷歌，任何时候都要能给基础设施中添加任意数量的应用，每个应用都可能带来极其繁重的负载。这类请求的资源很难被满足，尤其是在有限时间内要把必要的更新做完。如果谷歌在单个服务器

2014-11-16 18:50:31 2585

转载 LinkedIn开源大数据计算引擎 Cubert，并为此创建新的语言

摘要：Linkedin周二宣布开源其大数据计算引擎Cubert，据悉，这个开源框架将让工程师使用一套专门的算法，在不浪费CPU资源的情况下，更轻松的运行查询，该公司还为此开发出新的语言Cubert Script。【编者按】Linkedin周二宣布开源其大数据计算引擎Cubert，其名字来源于鲁比克方块（Rubik’s Cube），为了让开发人员更容易使用Cubert，而无需做任何形式的

2014-11-16 18:44:56 796

转载 Spark vs. MapReduce 时间节约66%，计算节约40%

MapReduce为大数据挖掘提供了有力的支持，但是复杂的挖掘算法往往需要多个MapReduce作业才能完成，多个作业之间存在着冗余的磁盘读写开销和多次资源申请过程，使得基于MapReduce的算法实现存在严重的性能问题。后起之秀Spark得益于其在迭代计算和内存计算上的优势，可以自动调度复杂的计算任务，避免中间结果的磁盘读写和资源申请过程，非常适合数据挖掘算法。腾讯TDW Spark平台基于社区

2014-11-16 18:43:06 488

转载 AWS re:Invent2014:云关系型数据库Aurora发布兼容MySQL 性能高5倍价格仅1/10

摘要：本届re：Invent发布了三大系列的新产品，包括云关系型数据库Amazon Aurora、代码服务（CodeDeploy、CodePipeline和CodeCommit）和企业安全和管理服务（Key management Service、Config、Service Catalog）。11月12日，亚马逊高级副总裁，AWS创始人之一Andy Jassy以“the new nor

2014-11-16 18:39:56 815

转载【AWS re:Invent2014直播系列】AWS副总裁谈数据中心网络打造

摘要：在AWS re:Invent 2014上，AWS副总裁兼杰出工程师James Hamilton分享了该公司在网络攻坚上所做的努力。James表示，通过SR-IOV和定制设备，在内部可用区域流量上，AWS已经可以达到每秒25TB的吞吐量。在拉斯维加斯的AWS re:Invent 2014上，公有云巨头详述了该公司在数据中心网络上所做的努力。James Hamilton，AWS的副总

2014-11-16 18:32:25 668

转载大型网站系统架构的演化

前言一个成熟的大型网站（如淘宝、京东等）的系统架构并不是开始设计就具备完整的高性能、高可用、安全等特性，它总是随着用户量的增加，业务功能的扩展逐渐演变完善的，在这个过程中，开发模式、技术架构、设计思想也发生了很大的变化，就连技术人员也从几个人发展到一个部门甚至一条产品线。所以成熟的系统架构是随业务扩展而完善出来的，并不是一蹴而就；不同业务特征的系统，会有各自的侧重点，例如淘宝，要解

2014-11-15 11:57:31 433

转载大数据的五大误区及其破解之道

有些人认为，“大数据”这一词汇不过是企业营销时的大肆炒作。但即使是那些接受大数据概念的人，也需要消除某些大数据误区。全球领先的信息技术研究和咨询公司Gartner指出，大肆宣传大数据概念，使企业在选择适当的行动方案时，受到更多困扰，但对消除一些仍存在的误区却毫无帮助。例如，80%的数据是非结构化的，这是错误的；又如高级分析功能只是更复杂形式的普通分析

2014-11-15 11:55:23 746

转载大数据从百万级别数据的分析角度，数据库如何选择？

问题描述：现在需要做一个数据存储，500w左右的数据，日后每天大约产生5w条左右的数据。想把这些数据存储起来，供日后的数据分析用？使用上面说的三种数据库中的哪中比较好？是否有必要建立集群？个人看法是：从长远角度看，由于单台机器的性能瓶颈，后期肯定要做集群，单纯的做复制最终也无法缓解单台master上读的负担。因此，使用mysql的话会使用cluser。但是了解到mysql的clus

2014-11-15 11:36:43 2352

转载 Druid创始人Eric Tschetter详解开源实时大数据分析系统Druid

摘要：Druid是一个为大型冷数据集上实时探索查询而设计的开源数据分析和存储系统，提供极具成本效益并且永远在线的实时数据摄取和任意数据处理。Druid创始人Eric Tschetter在eBay上海大数据峰会上接受了CSDN的专访。Druid是一个为大型冷数据集上实时探索查询而设计的开源数据分析和存储系统，提供极具成本效益并且永远在线的实时数据摄取和任意数据处理，并且在面对代码部署、机

2014-11-14 11:52:41 1011

转载 “米粉节”背后的故事——小米网抢购系统开发实践

摘要：今年4月的“米粉节”对小米网来说意义非凡，是其彻底重构后迎来的一次全面压力测试，涉及网站前端、后台系统、仓储物流、售后等各环节。高并发的负载能力、稳定性、准确性等已不是问题，灵活性与可运营性成为关键。2014年的米粉节2014年4月9日凌晨，我和同事们对小米网的抢购系统做了最后的检查与演练。几个小时后，小米网今年开年来最重要的一次大型活动“米粉节”就要开始了。这次米粉

2014-11-14 10:54:04 932

转载改变世界面貌的十个数学公式

摘要: 1971年5月15日，尼加拉瓜发行了十张一套题为“改变世界面貌的十个数学公式”邮票，由一些著名数学家选出十个以世界发展极有影响的公式来表彰。这十个公式不但造福人类，而且具有典型的数学美，即：简明性、和谐性、 ...1971年5月15日，尼加拉瓜发行了十张一套题为“改变世界面貌的十个数学公式”邮票，由一些著名数学家选出十个以世界发展极有影响的公

2014-11-14 10:30:11 1206

转载 PV、UV、IP都代表什么

在网络营销实践中经常会用到网站统计工具，这里边的PV、UV、IP值都代表什么呢，下面做详细的说明。先说下PV、UV、IP的定义：　　PV(访问量)：PageView,即页面浏览量或点击量，用户每次刷新即被计算一次。　　UV(独立访客)：UniqueVisitor,访问您网站的一台电脑客户端为一个访客。00:00-24:00内相同的客户端只会被计算一次。　　IP(独立IP)：指独立IP数。00:00

2014-11-14 10:20:47 944

转载超牛叉技术支撑的成人网站

声明：本文从技术角度讨论成人网站，内容完全健康，其中所涉及的网站名称、网址均作了替换。原文标题“在整个互联网中，成人网站有多大？”上网之人，多少都会接触过成人网站。这是一个举世公认的事实。不过这是一个难以洞察的领域，因为相关数据少之又少。我们知道成人网站都是那些在互联网上有着超高流量的网站。根据 Google DoubleClick 的 Ad Planner 服务（通过cooki

2014-11-14 10:18:16 149718

翻译 Docker: 现在和未来

作者 Chris Swan ，译者张晓鹏 Docker – 迄今为止的故事Docker是一种Linux容器工具集，它是为“构建（build）、交付（ship）和运行（运行）”分布式应用而设计的。作为DotCloud公司的开源项目，其首发版本的时间是2013年的3月份。该项目很快就受到欢迎，这也使得DotCloud公司将其品牌改为Docker（并最终将其原有的P

2014-11-13 09:08:04 2042

转载【数据分析】Excel数据分析功能藏在哪里

我们常见的数据分析工具大多是SPSS、R、Matlab等，Excel中自带的数据分析功能，也可以完成这些专业统计软件的一些数据分析工作，包括描述性统计、相关系数、概率分布、方差分析、回归、抽样等内容。以Excel 2007为例，首先需我们加载数据分析功能。步骤：1、“Excel选项”。2、单击“加载项->“Excel

2014-11-12 10:29:33 1155

阿里CDN技术揭秘2014

阿里CDN技术，包括Swift、Tengine等。

2014-11-26

OpenStack2014UserSurveyFromOpenStackCN.pdf

2014 OpenStack 春季用户调查 • 你是如何使用 OpenStack 的？ • 涵盖多种不同类型云 (dev/QA/prod)

2014-11-08

big data presentation of talkingdata

2014-11-04

f4: Facebook’s Warm BLOB Storage System

Facebook’s corpus of photos, videos, and other Binary Large OBjects (BLOBs) that need to be reliably stored and quickly accessible is massive and continues to grow. As the footprint of BLOBs increases, storing them in our traditional storage system, Haystack, is becoming in- creasingly inefficient. To increase our storage efficiency, measured in the effective-replication-factor of BLOBs, we examine the underlying access patterns of BLOBs and identify temperature zones that include hot BLOBs that are accessed frequently and warm BLOBs that are accessed far less often. Our overall BLOB storage sys- tem is designed to isolate warm BLOBs and enable us to use a specialized warm BLOB storage system, f4. f4 is a new system that lowers the effective-replication-factor of warm BLOBs while remaining fault tolerant and able to support the lower throughput demands. f4 currently stores over 65PBs of logical BLOBs and reduces their effective-replication-factor from 3.6 to either 2.8 or 2.1. f4 provides low latency; is resilient to disk, host, rack, and datacenter failures; and provides sufficient throughput for warm BLOBs.

2014-10-29

美国大数据工程师面试宝典.pdf

One Chinese guy talk about job experience in silicon valley, especially in data science,such as Hadoop. Many interview and programming skills mentioned also.

2014-10-17

The Linux Knowledge Base and Tutorial

This is a BETA release of the "print friendly" version of the Linux Knowledge Base and Tutorial.

2014-10-05

The Linux Command Line

This book is a broad overview of “living” on the Linux command line. Unlike some books that concentrate on just a single program, such as the shell program, bash, this book will try to convey how to get along with the command line interface in a larger sense. How does it all work? What can it do? What's the best way to use it? This is not a book about Linux system administration. While any serious discussion of the command line will invariably lead to system administration topics, this book only touches on a few administration issues. It will, however, prepare the reader for additional study by providing a solid foundation in the use of the command line, an essential tool for any serious system administration task. This book is very Linux-centric. Many other books try to broaden their appeal by in-cluding other platforms such as generic Unix and OS X. In doing so, they “water down” their content to feature only general topics. This book, on the other hand, only covers contemporary Linux distributions. Ninety-five percent of the content is useful for users of other Unix-like systems, but this book is highly targeted at the modern Linux command line user.

2014-10-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人