云计算
文章平均质量分 55
半吊子全栈工匠
半吊子全栈工匠一枚
展开
-
翻译如写生
究竟翻译一本书有多少惊天动地,百转千回的故事,倒没有。翻转记忆的胶带:无非是时光顺着书脊蜿蜒、爬升,然后化作蝌蚪,消失在半亩方塘中;无非是凌晨的阳光拖着文字,像一颗胶囊,也像一颗琥珀,凝固在地铁逼仄的时空中;无非是慧眼识珠,敏锐的视线扫过,历历在目,刻在编辑部时钟的滴答声中。究竟写生的模特有多美艳,倒也没有。曹兄说,,我说,翻译是一个写生的过程。既然是写生,就要写出...原创 2019-09-18 07:28:00 · 6142 阅读 · 20 评论 -
地铁译:Spark for python developers ---Spark流式数据处理
列举了流式处理架构应用的基础,描述了他们的挑战,约束,和优势。深入了解了Spark Streaming 的内部工作原理包括如何Spark Core 适用,以及与Spark SQL 和 Spark MLlib对话, 通过TCP sockets 解释了流处理概念。使用Kafka最大限度地增加了流处理架构的弹性,讨论了上下行数据与消费者之间的解耦合。 还讨论了Flume—这个可靠,灵活,伸缩性数据摄取和传输的流水线系统。翻译 2016-06-15 09:22:28 · 23497 阅读 · 1 评论 -
大数据架构的典型方法和方式
NoSQL 技术为应用提供了缓存和搜索特性,但既然是处理数据,就需要定义一种方法来处理各种数据流,以便能够给用户输出见解或数据服务。通过审视被IT组织使用广泛的数据架构来定义处理的拓扑结构。当考虑服务水平SLA时 需要进行结构分割。最后,讨论一个特殊种类的架构, lambda这一多种类型架构的结合体。原创 2016-06-04 15:15:30 · 31764 阅读 · 2 评论 -
地铁译:Spark for python developers ---Spark处理后的数据可视化
数据可视化能够提取数据的结论见解和趋势。快速浏览Python 生态系统中的可视化工具,重点把Bokeh 作为渲染和展示大数据集的强劲工具。 Bokeh 是Python Anaconda 生态系统的一部分......翻译 2016-06-25 11:31:50 · 10329 阅读 · 1 评论 -
地铁译:Spark for python developers --- 搭建Spark虚拟环境2
这一段,主要是 Spark 的基本概念,以及Anaconda的基本组成。数据密集型应用利用可扩展的分布处理框架在大规模商业集群上分析PB级的数据. Hadoop 是第一个map-reduce的开源实现. Hadoop 依赖的分布式存储框架叫做 HDFS......Spark 是一个面向大规模数据处理的快速、分布式、通用的分析计算引擎. 主要不同于Hadoop的特点在于.....翻译 2016-05-09 20:37:47 · 5500 阅读 · 0 评论 -
地铁译:Spark for python developers --- 搭建Spark虚拟环境1
一个多月的地铁阅读时光,阅读《Spark for python developers》电子书,不动笔墨不看书,随手在evernote中做了一下翻译,多年不习英语,自娱自乐。周末整理了一下,发现再多做一点就可基本成文了,于是开始这个地铁译系列。为开发搭建一个独立的虚拟环境,通过Spark和Anaconda提供的PyData 库为该环境补充能力。 这些库包括Pandas,Scikit-Learn, Blaze,翻译 2016-05-08 20:16:02 · 5924 阅读 · 0 评论 -
架构大数据分析应用
这是《Scalable Big Data Architecture》一书的翻译笔记和读书札记,融入自己的部分观点 ….典型使用场景....大数据生态系统.....原创 2016-05-18 21:19:50 · 17561 阅读 · 3 评论 -
地铁译:Spark for python developers ---构建Spark批处理和流处理应用前的数据准备
从GitHub收集有关Apache Spark的信息, 在Twitter上检查相关的tweets, 使用 Meetup从更广泛的开源社区得到更多Spark 相关感受。 本章中, 我们将概览各种信息和数据源,理解他们的结构,从批处理到流处理介绍数据处理流水线,要点如下: + 从批处理到流处理介绍......翻译 2016-05-17 06:54:45 · 15402 阅读 · 0 评论 -
一样的“Too many open files”,不一样的阿里云和青云
现象系统服务准备在青云上线,突然间发现服务时断时续,登陆服务器,查看日志,原来是‘Too many open files‘,... 青云和阿里云的解决方案不同....原创 2016-05-14 22:04:45 · 6039 阅读 · 0 评论 -
从 "org.apache.hadoop.security.AccessControlException:Permission denied: user=..." 看Hadoop 的用户登陆认证
如果远程提交任务给Hadoop 可能会遇到 "org.apache.hadoop.security.AccessControlException:Permission denied: user=..." , 当然,如果是spark over YARN, 也同样会遇到类似的问题,例如: An error occurred while calling None.org.apache.spark.api.java.JavaSparkContext.: org.apache.hadoop.security.Ac原创 2016-04-19 20:36:47 · 26880 阅读 · 3 评论 -
地铁译:Spark for python developers --- 搭建Spark虚拟环境 4
Spark 同时可以建立在虚拟化的基础上,例如Vagrant 和Docker, 这样的虚拟化环境很容易部署到各种云服务上,例如AWS。Vagrant的虚拟化环境为了创建Python和Spark 环境......翻译 2016-05-11 21:12:30 · 4047 阅读 · 0 评论 -
从 "No module named pyspark" 到远程提交 spark 任务
能在本地Mac环境用python提交spark 任务会方便很多,但是在安装了 spark-1.6-bin-without-hadoop (spark.apache.org/download) 之后,在python 中 “import pyspark” 会报“no module named pyspark” 错误。 没错,这种错误都是 路径问题......原创 2016-04-16 21:50:28 · 20643 阅读 · 1 评论 -
如何理解混合云
两年前,我们就看到了混合云是IT发展的大趋势,可以说是必然的王者之道。....... 混合云有了更多的内涵和外延,这一口熟能详的词有着逐渐被滥用的趋势。什么是混合云呢?...... 从架构的层次来看,IaaS 和 PaaS 可以看成平台层云服务,SaaS 和BaaS 可以看成应用层云服务......原创 2016-07-22 10:58:14 · 3654 阅读 · 1 评论 -
AWS Submit 2016 观感
9月7日,AWS Submit 2016的第一天,人潮涌动,据说这是一个万人大会。由于在一层看了一会参展商,9点多上楼的时候,告知主会场已满,居然只能在楼下看实况转播了。因此,先看一下参展商的走向。混合云随着业界对“传统IT向云转型“的认可,混合云的时代终于来了。混合云如何实现敏捷性呢? 基于云的持续交付么? 采用云原生应用架构么? …… 混合云显得有些不够用了,开始使用“超融合“一词了原创 2016-09-10 10:36:05 · 1897 阅读 · 0 评论 -
翻译如重构,期待您的单元测试
翻译为什么这样难”中所谈到的,翻译如不是自娱自乐的消遣,必然会“问路实难,它决定了旅程长远的价值”。现在,自己终于有了切实的感受。去年年初的时候,十人合作的《深入分布式缓存》一书上市(赠书伴回家:《深入分布式缓存》),认识了机械工业出版社的福川。当时在研究IoT尤其是智能家居相关的领域,连接性(connectivity)是重中之重,恰逢福川说一本关于计算机网络的书寻求译者,于是毛遂自...原创 2019-09-12 18:30:00 · 1716 阅读 · 8 评论 -
计算机网络的元认知、实践与未来
南朝刘峻在《辩命论》中说:“自然者,物见其然,不知所以然;同焉皆得,不知所以得。”本书提供了一种理解网络的新方法,即从问题空间到方案空间的方法。通过解释计算机网络在架构设计方面必须克服的问题空间,思考常见的方案空间,并展示这些解决方案在新协议和成熟协议中是如何实现的。这样,作者不仅阐明了现代计算机网络的组件和协议,而且揭示了现代计算机网络为什么被设计成现在的样子。这不仅能够让读者对网络知识“见...原创 2019-08-30 09:19:04 · 1762 阅读 · 4 评论 -
FaaS 的简单实践
FaaS 或者说serverless是一种云计算模型,其主要特点是用户根本不需要租用任何虚拟机ーー从启动虚拟机,执行代码,返回结果和停止虚拟机这些由云提供商处理的整个过程。这比其他云计算实现更具成本效益。它还使开发人员能够更加专注于开发业务逻辑,因为应用程序的某些部分由云提供程序处理。要启动执行代码的整个过程,必须触发它。触发器可以是一个特定的事件,也可以是对API 管理系统的请求...原创 2018-12-17 08:00:00 · 2072 阅读 · 1 评论 -
IIoT可预测运维报告摘要
2013年4月,在德国举行的 Hanover Messe 会议上,工业4.0的指导原则发布。 在过去的五年里,工业4.0已经从德国政府的政策转向了全球的高管级战略。而今天,我们已处于第三个浪潮中————积极的实施。工业4.0被认为是第四次工业革命,行业分析师预测了一个重大而广泛的经济影响。工业物联网、人工智能和机器学习在可预测运维4.0中的应用是工业4.0的核心元素。本文旨在找出改变的高级别战...原创 2018-08-08 21:36:00 · 981 阅读 · 0 评论 -
从冯诺伊曼结构看AI
AI, Artificial Intelligence, 人工智能。就像每个人眼中都有一个自己的哈姆雷特一样,每一个看AI 都是不一样的。作为一个老程序员....“什么是AI?”以及AI 和 大数据,机器学习,神经网络,自然语言处理等诸多名词到底有什么关系呢?......原创 2017-09-17 22:28:30 · 1284 阅读 · 0 评论 -
基于AWS使用深度学习的10个Linux命令
在AWS上执行大规模的深度学习处理是一个廉价而且有效的学习和开发方式。花少量的钱就可以使用数十GB的内存,数十个CPU,多个GPU,这是值得推荐的。如果你是使用EC2或者Linux 命令的新人,在云端执行深度学习脚本的时候, 这些命令是非常有效的。翻译 2017-09-04 21:56:53 · 2064 阅读 · 0 评论 -
不可能 是 不可能的事
今年的云栖大会之后,金博士送给了我一本阿里“博士”写的书《在线》。在地铁阅读时光里,断断续续读完,不动笔墨不读书,可以分享一下了。全书的主旨——互联网是基础设施,数据是生产资料,计算是公共服务。让计算成为人类的能力,让数据成为世界的财富。原创 2016-12-08 09:15:14 · 1753 阅读 · 1 评论 -
全栈必备 面向数据的架构
数据是系统的核心,在面向服务的架构之外,可以考虑面向数据的架构方式。面向数据的服务架构需要支持多数据源异构,支持动态数据和静态数据,既支持公有云部署又支持私有云部署,提供多种数据应用和数据产品......原创 2016-11-30 20:49:43 · 5016 阅读 · 1 评论 -
大数据道场(HDP SandBox) 初探
这里的大数据道场是以HDP sandbox 为基础的,安装好了virtual box,导入了sandbox镜像之后,启动虚拟机,来看看我们的大数据道场吧。访问方式......文件传输......两句话简述hadoop 中的各种服务......原创 2016-09-27 20:39:51 · 7834 阅读 · 0 评论 -
代码世界中的Lambda
Lambda表达式基于数学中的λ演算得名,可以看作是匿名函数,可以代替表达式,函数,闭包等,也支持类型推论,可以远离匿名内部类。Lambda的目的是让程序员能够对程序行为进行抽象,把代码行为看作数据。Java、Python和大数据云计算中的Lambda分别是什么样的?原创 2016-09-23 20:28:38 · 3975 阅读 · 0 评论 -
地铁译:Spark for python developers --- 搭建Spark虚拟环境3
在VirtualBox 上建Ubantu虚机,安装Anaconda,Java 8,Spark,IPython Notebook,以及和Hello world 齐名的wordcount 例子程序.....翻译 2016-05-10 20:18:44 · 22281 阅读 · 0 评论 -
如何评估社交网络中信息内容的价值呢?
信息内容和社交结构构成一个双重反馈回路,社交结构影响信息扩散,而信息则影响社会结构的变化。如何看待社交网络中信息内容的价值呢?尝试从数据的维度给出了信息内容价值评估的线性表达: Vm = m1*Ve + m2*Vf +m3*Vs原创 2016-04-02 11:04:13 · 2655 阅读 · 0 评论 -
基于AWS云服务的大数据与大规模计算的应用架构
AWS对于大规模计算方案是很受欢迎的,如科学计算,模拟和研究项目。这些方案包括从科研设备,测量设备,或其他计算作业的大量数据集的采集。采集后,使用大规模计算作业的分析来生成最终数据集。通常,这些结果将提供给更多的受众。1. 为了将大数据集上传到AWS,关键是拥有最多的可用带宽。 通过多客户端的并行处理,就可以把数据上传到S3, 每个客户端采用多线程技术实现并行上传或上传多部分以便进一步并行处理。翻译 2015-02-04 20:18:45 · 2029 阅读 · 0 评论 -
基于AWS云服务的容错和高可用性应用架构
AWS提供了在云端构建可靠的,容错的,高可用系统的基础设施和服务。需要开发者的特殊关注,这些特性已经设计在AWS服务中了,但需要明确和准确的使用。 Amazon EC2 提供了构建目标基础设施的模块,它们本身不是容错的,硬盘、电源、甚至机架都可能挂掉,本文中组合特性的使用能够实现容错性和高可用性。1. 负载均衡是增加系统可用性的有效方法。如果负载均衡器后的实例失效,可以被无缝地替换掉,而不影响其翻译 2015-02-03 13:29:22 · 2822 阅读 · 0 评论 -
与猪(pig)共舞
猪在吃东西的时候稍有浪费,pig 也有类似的情况.Pig Latin 是一种数据流语言,每个处理步骤都产生一个新的数据集,或产生一个新的关系。无论关系还是字段都是以字母字符开头,大小写敏感,注释和java相同。任何一种数据流处理的第一步都是指定输入,pig...原创 2014-12-20 17:26:30 · 1968 阅读 · 0 评论 -
基于AWS的媒体内容服务应用架构
提供数字内容服务最基本也是最简单任务那就是在低于预算的前提下,实现低延迟,高可用性,耐用性,访问控制,以及数百万的并发浏览。此外,因为“尖峰”模式的,运营团队经常需要提供静态的硬件,网络,和管理资源,以支持预期的最大需要,但是在高峰时段以外则常常造成浪费。 AWS提供了一整套服务,专门为媒体服务提供了高性能。每个服务功能,都是在弹性的基础设施上按需付费,这意味着可以根据需求曲线放大和缩小服务规模,翻译 2015-02-02 15:59:57 · 1778 阅读 · 0 评论 -
基于AWS云服务的Web应用架构
高可用和可扩展的web应用是复杂而昂贵的。密集的高峰时段和流量模式的剧烈波动导致昂贵的硬件利用率低下。Amazon 云服务为web 应用提供高可靠的,可扩展的,安全的高性能基础设施,同时保证了弹性,根据客户的流量变化而实时调整规模进而降低了成本。 1)Amazon-Route-53 来处理用户的DNS请求,这是一个高可用的DNS服务,网络流量通过云服务路由到其他的基础设施2) 静态数据,流数据,和翻译 2015-02-01 09:22:43 · 3878 阅读 · 0 评论 -
基于AWS云服务的批处理系统架构
在AWS执行批处理任务时,允许按需配置多部分作业处理的应用架构,可用于对异构的系统的瞬时或延迟部署,并可扩展为“网格”型工作节点,通过并联的大批量任务处理实现快速收敛。面向批处理应用程序现在可以有很多的地方利用这种风格按需加工,包括理赔处理,大规模改造,媒体转码和多部分的数据处理工作。 批处理架构通常是高可变使用模式的代名词,即在一段低使用率后有明显的使用峰值(例如,月末的处理)。构建一个批处理架翻译 2015-02-03 09:36:14 · 1887 阅读 · 0 评论 -
会飞的猪(Pig)
猪会飞么?提高pig的性能,让猪飞起来有如下办法:1. 尽早地并经常地进行过滤2. 尽早地并经常地进行映射3. 正确并合理地使用Join4. 选择正确的数据类型,合适的并行值5. 调整pig 的性能属性:pig.cachedbag.menusage 和pig.skewedjoin.reduce.memusage6. 对中间结果进行压缩 ......原创 2014-12-21 14:37:57 · 2090 阅读 · 0 评论 -
2014年红帽高峰论坛随笔
今年的红帽高峰论坛主题是:Transform IT,Transform Your Business随着会议的进展,感觉还是张博士和IDC周震刚讲得较有干货,简要先分享一下。当前的创新模式已经由专有模式的创新进入开源,进而转向开放创新.....原创 2014-10-21 17:44:50 · 1889 阅读 · 0 评论 -
vForum 2014点滴随笔
vForum2014 的口号:NO Limits 纵横无限一条好消息:VMware 将在中国建立亚洲研究院,并在5年内投资10亿美元。大数据: 帮助企业获得先机云计算:高效低成本移动化:BYOD全方位访问企业数据社交网络: 走进商业环境原创 2014-10-29 14:43:48 · 1849 阅读 · 0 评论 -
<<the architecture of open source applications>> 中关于虚拟机复制与迁移(上)
SnowFlock罗伊科比和安德烈斯·Lagar Cavilla云计算提供了一个令人难以置信的计算平台。用户通过点击几下用户可以以每小时不到10美分的价格租用在云中的服务器,节约了使用物理设备的所有相关时间,精力和前期成本。云供应商提供虚拟机(虚拟机),而不是物理计算机来实现低成本运营。云计算的关键是虚拟化软件,被称为虚拟机监视器(虚拟机M),用来模拟一台物理机器。用户们非常安全地使用翻译 2014-07-24 08:59:26 · 1930 阅读 · 0 评论 -
<<the architecture of open source applications>> 中关于虚拟机复制与迁移(下)
18.6克隆端组件克隆在从架构描述器创建时是空心弹,和我们一样,他们需要从父母那里获得很大的帮助才能长大:子虚拟机们迁出时要立即给家里打电话,他们发现很多需要的东西缺失,要求他们的父母马上发送。18.6.1 memtap进程memtap进程连接到每个创建后的克隆,是一个克隆的生命线。它映射到克隆的所有内存并按需加载。通过Xen的hypervisor,它登记了一些关键的数据位:访问克隆内翻译 2014-07-24 09:04:52 · 1969 阅读 · 0 评论 -
基于AWS的广告服务应用架构
互联网广告服务需要在有限时间内完成定向广告,这是需要面对的技术挑战。AWS提供了在云端构建可靠的,容错的,高可用系统的基础设施和服务。在本文中,将描述系统中的两个主要部分:广告服务的基础结构和用于点击数据收集的数据分析集群。1. 当用户加载一个web页面时,广告服务器返回一个广告资源被展示的标识。广告服务器运行在 EC2 实例上,根据用户的个人资料,从存储在Amazon DynamoDB 表中查翻译 2015-02-05 08:33:08 · 2291 阅读 · 0 评论 -
基于AWS的远程灾备系统架构
灾难恢复是从对IT系统造成负面影响的任何事件中恢复过来的相关技术防范和措施。。一个典型的方法是构建重复的基础设施,以确保在灾难发生时备用能力的可用性。AWS可以扩展公司私有基础架构上所需要的基础设施。对于灾难恢复解决方案,这将导致在显著的成本节约。下图显示了一个灾难恢复设置为本地应用程序的一个例子。1. 公司的数据中心托管着包括数据库服务器的应用以及包含内容管理系统本地存储的应用服务器。 2.翻译 2015-02-05 12:49:19 · 2832 阅读 · 0 评论 -
猪与蟒(pig and python)
Python 真是无处不在呀.pig 0.9以后将python作为嵌入式支持语音,使用Jython解释器利用python2.5的功能,这个接口的最上层是org.apache.pig.scripting.Pig首先python脚本会对一段Pig Latin脚本进行编译,然后将在Python中定义的变量传递给它,最后执行它.....原创 2014-12-21 14:45:42 · 3692 阅读 · 0 评论