
云计算/大数据/并行计算
文章平均质量分 87
惹不起的程咬金
这个作者很懒,什么都没留下…
展开
-
BIM技术
什么是BIM:BIM全称是“建筑信息模型(Building Information Modeling)”,这项技术被称之为“革命性”的技术,源于美国乔治亚技术学院(Georgia Tech College)建筑与计算机专业的查克伊士曼(Chuck Eastman,Ph.D.)博士提出的一个概念:建筑信息模型包含了不同专业的所有信息、功能要求和性能,把一个工程项目的所有信息包括在设计过程、施工过...原创 2018-12-04 09:31:06 · 9669 阅读 · 1 评论 -
Avro,Thrift,Gb 三种协议
thrift :是由 Facebook 主导开发的一个跨平台、支持多语言的,通过定义 IDL 文件,自动生成 RPC 客户端与服务端通信代码的工具,以构建在 C++, Java, Python, PHP, Ruby, Erlang, Perl, Haskell, C#, Cocoa, JavaScript, Node.js, Smalltalk, and OCaml 这些编程语言间无缝结合的、高效转载 2017-09-21 16:34:20 · 1274 阅读 · 0 评论 -
Spark Streaming 学习笔记
Spark Streaming 用来干什么:许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用、训练机器学习模型的应用,还有自动检测异常的应用。Spark Streaming 是Spark 为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的API 来编写流式计算应用,这样就可以大量重用批处理应用的技术甚至代码。Spark Streaming是Spark核心转载 2017-09-21 10:18:43 · 509 阅读 · 0 评论 -
Spark 和 Hive之间的区别
大概区别也就是:两个不同的sql翻译引擎吧!正如如下图片中所说的!http://blog.csdn.net/dax1n/article/details/56009813转载 2017-09-12 16:09:13 · 12602 阅读 · 0 评论 -
Hive的体系结构
--Hadoop:用HDFS进行存储,利用MapReduce进行计算。--元数据存储(MetaStore):通常是存储在关系数据库中。Hive的安装有三种模式:嵌入模式、本地模式、远程模式1)嵌入模式:--元数据信息被存储在Hive自带的Derby数据库中。--只允许创建一个连接--多用于Demo(演示)2)本地模式:--元信息被存储在MySQL数据转载 2017-09-12 14:12:52 · 451 阅读 · 0 评论 -
查看HDFS文件系统数据的三种方法
1、使用插件——Hadoop-Eclipse-Plugin此方法需要借助Eclipse,插件的安装及使用请参考博文使用Eclipse编译运行MapReduce程序_Hadoop2.6.0_Ubuntu/CentOS。借助Eclipse只能进行简单的HDFS操作,如查看,删除,上传,下载。以下是操作界面:2、HDFS Web界面HDFS Web界面上只能查看文件系统数据。网址:h转载 2017-09-12 13:15:07 · 46026 阅读 · 0 评论 -
深入理解Hadoop集群和网络
云计算和Hadoop中网络是讨论得相对比较少的领域。本文原文由Dell企业技术专家Brad Hedlund撰写,他曾在思科工作多年,专长是数据中心、云网络等。文章素材基于作者自己的研究、实验和Cloudera的培训资料。本文将着重于讨论Hadoop集群的体系结构和方法,及它如何与网络和服务器基础设施的关系。最开始我们先学习一下Hadoop集群运作的基础原理。Hadoop里的服务器角色转载 2017-09-12 10:50:19 · 496 阅读 · 0 评论 -
web GUI 自动化测试调研
学习资料:https://github.com/lmz2932/learnseleniumhttp://www.51testing.com/zhuanti/selenium.htmlhttp://www.cnblogs.com/melodylin/p/5656185.html代码结构:框架代码结构:pyAutoform---__init_原创 2017-09-25 09:14:34 · 730 阅读 · 0 评论 -
Network Time Protocol
Network Time Protocol (NTP) 也是RHCE新增的考试要求. 学习的时候也顺便复习了一下如何设置Linux的时间,现在拿出来和大家分享设置NTP服务器不难但是NTP本身是一个很复杂的协议. 这里只是简要地介绍一下实践方法和上次一样,下面的实验都在RHEL5上运行 1. 时间和时区如果有人问你说现在几点? 你看了看表回答他说晚上8点了. 这样回答看上去没有转载 2017-09-22 09:45:38 · 2493 阅读 · 0 评论 -
OCR学习笔记
1 什么是OCR?OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术原创 2018-01-11 20:29:17 · 7239 阅读 · 0 评论 -
网页布局
1 常见网页宽度:950px、960px、1000px、1190px、1200px 2栅格化栅格化并不是一个新的概念,大家关注的点往往是他表面的950、960和1190。左边的三个数据的核心是一个24等分的栅格系统。可以被轻松的2等分、3等分、4等分、6等分、8等分、12等分,还可以做到1:2、1:3、1:5、2:4、1:7、3:5的不对称分割,并且可以精确到像素。由于3:5和3等...转载 2018-08-16 11:19:23 · 1522 阅读 · 0 评论 -
大数据实时处理技术框架-spark和storm对比
对比点 Storm Spark Streaming 实时计算模型 纯实时,来一条数据,处理一条数据 准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理 实时计算延迟度 毫秒级 秒级 吞吐量...原创 2018-08-13 17:05:54 · 2794 阅读 · 0 评论 -
ES 学习笔记
1 基本概念:cluster – An Elasticsearch cluster consists of one or more nodes and is identifiable by its cluster name.node – A single Elasticsearch instance. In most environments, each node runs on a se...原创 2018-08-14 09:47:28 · 1547 阅读 · 0 评论 -
kafka基本概念
Kafka[1] 是一种高吞吐量[2] 的分布式发布订阅消息系统,有如下特性:通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。高吞吐量[2] :即使是非常普通的硬件Kafka也可以支持每秒数百万[2] 的消息。支持通过Kafka服务器和消费机集群来分区消息。支持Hadoop并行数据加载。[3] kafka基本概念:BrokerKafka集群...原创 2018-05-06 10:14:07 · 1182 阅读 · 0 评论 -
Hive Hbase之间的区别和应用场景
作者:有点文链接:https://www.zhihu.com/question/21677041/answer/185664626来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。Hbase和Hive在大数据架构中处在不同位置,Hbase主要解决实时数据查询问题,Hive主要解决数据处理和计算问题,一般是配合使用。一、区别:Hbase: Hadoop database ...转载 2018-04-30 12:00:14 · 3276 阅读 · 0 评论 -
Phoenix 简单介绍
1. Phoenix定义Phoenix最早是saleforce的一个开源项目,后来成为Apache基金的顶级项目。Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表,插入数据和对HBase数据进行查询。put the SQL back in NoSQLPhoenix完全使用Java编写,作为HBase内嵌的JDBC驱动。Pho...转载 2018-03-06 11:20:28 · 26604 阅读 · 0 评论 -
zuul
Router and Filter: Zuul路由是微服务架构的不可或缺的一部分。例如:”/” 可能映射到你应用主页,/api/users映射到用户服务,/api/shop映射到购物服务。Zuul。Zuul是Netflix出品的一个基于JVM路由和服务端的负载均衡器。Netflix uses Zuul for the following: * Authentication * Insights *...转载 2018-02-13 14:18:06 · 4086 阅读 · 0 评论 -
Oozie 快速入门
设想一下,当你的系统引入了spark或者hadoop以后,基于Spark和Hadoop已经做了一些任务,比如一连串的Map Reduce任务,但是他们之间彼此右前后依赖的顺序,因此你必须要等一个任务执行成功后,再手动执行第二个任务。是不是很烦! 这个时候Oozie(驯象人,典故来自评论一楼)就派上用场了,它可以把多个任务组成一个工作流,自动完成任务的调用。简介Oozie是一个基转载 2018-01-25 11:11:49 · 2871 阅读 · 0 评论 -
Hermes:来自腾讯的实时检索分析平台
实时检索分析平台(Hermes)是腾讯数据平台部为大数据分析业务提供一套实时的、多维的、交互式的查询、统计、分析系统,为各个产品在大数据的统计分析方面提供完整的解决方案,让万级维度、千亿级数据下的秒级统计分析变为现实。Hermes实时检索分析场景1、营销分析作为营销人员,首先需要确认营销目标群体,并且在什么时间以什么形式,开展什么营销活动效果最好?首先需要找转载 2018-01-31 13:38:56 · 1111 阅读 · 0 评论 -
Spark RDD 读书笔记
RDD 简介Spark 中的RDD 就是一个不可变的分布式对象集合。每个RDD 都被分为多个分区,这些分区运行在集群中的不同节点上。RDD 可以包含Python、Java、Scala 中任意类型的对象,甚至可以包含用户自定义的对象。用户可以使用两种方法创建RDD:读取一个外部数据集,或在驱动器程序里分发驱动器程序中的对象集合(比如list 和set)。创建出来后,RDD 支原创 2017-09-15 10:30:40 · 403 阅读 · 0 评论 -
openstack 和cloudstack之间的比较
OpenStack是目前最大和最活跃的开源云计算项目,OpenStack已经获得了很多的支持,包括很多大牌厂商,例如Rackspace、戴尔、惠普、思科、VMware和红帽等。与此同时,另外一个开源云计算项目CloudStack也正迅猛的增长,对OpenStack发起挑战,目前主要受到思杰(Citrix)和其他较小厂商的支持。CloudStack是一个开源的具有高可用性及扩展性的云计算平台。2转载 2017-02-22 10:17:03 · 24761 阅读 · 1 评论 -
Cloudstack 入门
1)什么是cloudstack?CloudStack是一个开源的具有高可用性及扩展性的云计算平台。支持管理大部分主流的hypervisor,如KVM虚拟机,XenServer,VMware,Oracle VM,Xen等。CloudStack 是一个开源的云操作系统,它可以帮助用户利用自己的硬件提供类似于Amazon EC2那样的公共云服务。CloudStack可以通过组织和协调用户的虚拟化原创 2017-02-22 10:05:13 · 3405 阅读 · 0 评论 -
基于 Openstack 的 Tempest 测试框架的原理与实践
基于 Openstack 的 Tempest 测试框架介绍Openstack 开源云介绍 OpenStack(OS)是由网络主机服务商 Rackspace 和美国宇航局联合推出的一个开源项目,于 2010 年 7 月 18 日正式启动,迄今为止已经得到二百多家公司的支持,其中包括很多大型企业,如 IBM,惠普、戴尔、红帽和 Canonical 等。OpenStack 是一个 IaaS(基础转载 2016-04-11 22:15:48 · 3304 阅读 · 0 评论 -
python几个轻量级web框架
我最近发表了一篇名为 ‘7 Minimal Node.js Web Frameworks for 2014 and Beyond‘ 的博文——目前它是我博客访问量最高的文章:超过10000人浏览,分享和评论了这些我总结到一起的web框架。这教会了我一些事,这类文章是有需求的——因为它提供了触手可及的备查和/或探索了做事情的新方式。我发现很多“周刊”在他们的新闻或是博客上刊登了我的文章,对此转载 2016-04-11 18:04:34 · 14294 阅读 · 4 评论 -
openstack 单元测试助手tox
背景在OpenStack项目中,你还在使用python tools/install_venv.py搭建单元测试环境吗?还在使用run_tests.sh命令执行单元测试吗?是的,今天之前,我也是这样进行单元测试的。但是,情况变了。2015年12月份,nova废弃run_tests.sh脚本(#257554)。 在我们的ironic项目里也已经没有run_tests.sh和tools/instal转载 2016-04-14 18:03:02 · 6262 阅读 · 0 评论 -
RabbitMq、ActiveMq、ZeroMq、kafka之间的比较,资料汇总
原文转载 http://blog.csdn.net/linsongbin1/article/details/47781187MQ框架非常之多,比较流行的有RabbitMq、ActiveMq、ZeroMq、kafka。这几种MQ到底应该选择哪个?要根据自己项目的业务场景和需求。下面我列出这些MQ之间的对比数据和资料。第一部分:RabbitMQ,ActiveMq,Zero转载 2016-04-07 14:54:45 · 519 阅读 · 0 评论 -
RDD 存储方式
RDD 存储类型 RDD可以设置不同类型存储方式,只存硬盘、只存内存等。 Spark的持久化级别持久化级别含义解释MEMORY_ONLY使用未序列化的Java对象格式,将数据保存在内存中。如果内存不够存放所有的数据,则数据可能就不会进行持久化。那么下次对这个RDD执行算子操作时,那些没有被持久化的数据,需要从源头处重转载 2017-09-14 11:07:47 · 4457 阅读 · 0 评论 -
Spark 入门
Apache Spark是一个轻量级的内存集群计算平台,通过不同的组件来支撑批、流和交互式用例。Apache Spark是个开源和兼容Hadoop的集群计算平台。由加州大学伯克利分校的AMPLabs开发,作为Berkeley Data Analytics Stack(BDAS)的一部分,当下由大数据公司Databricks保驾护航,更是Apache旗下的顶级项目,下图显示了Apache Spa转载 2017-09-13 09:06:28 · 59976 阅读 · 5 评论 -
Spark 内存管理详解
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuff转载 2017-09-14 15:37:20 · 665 阅读 · 0 评论 -
Spark运行模式
Spark运行模式简介 Spark运行模式列表(一定要熟悉!)早就想写这章了,一直懒得动笔,不过还好,总算静下心来完成了。刚接触Spark时,很希望能对它的运行方式有个直观的了解,而Spark同时支持多种运行模式,官网和书籍中对他们的区别所说不详,尤其是模式之间是否有关联、启动的JVM进程是否有区别、启动的JVM进程的作用是否都一样,等等这些都没有转载 2017-09-14 10:57:32 · 877 阅读 · 0 评论 -
Mesos
Mesos是Apache下的开源分布式资源管理框架,它被称为是分布式系统的内核。Mesos最初是由加州大学伯克利分校的AMPLab开发的,后在Twitter得到广泛使用。起源编辑Apache Mesos是一个通用的集群管理器[1] ,起源于Google 的数据中心资源管理系统Borg。开发过程编辑Twitter从Google的Borg系统中得到启发,转载 2017-09-14 10:34:12 · 425 阅读 · 0 评论 -
Spark的运行架构分析(二)之运行模式详解
在上一篇博客 spark的运行架构分析(一)中我们有谈到Spark的运行模式是多种多样的,那么在这篇博客中我们来具体谈谈Spark的运行模式一:Spark On Local 此种模式下,我们只需要在安装Spark时不进行hadoop和Yarn的环境配置,只要将Spark包解压即可使用,运行时Spark目录下的bin目录执行bin/spark-shell即可 具体可参考这篇转载 2017-09-14 10:26:00 · 641 阅读 · 0 评论 -
Spark Streaming实时计算框架介绍
随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。 Spark Streaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。本文将详细介绍Spark Streaming实时计算框架的原理与特点、适用场景。转载 2017-09-13 10:09:38 · 492 阅读 · 0 评论