远有青山

山外青山楼外楼!

聊聊同步、异步、阻塞与非阻塞

近来遇到了一些常见的概念,尤其是网络编程方面的概念,如:阻塞、非阻塞、异步I/O等等,对于这些概念自己也没有太清晰的认识,只是很模糊的概念,说了解吧也了解,但是要让自己准确的描述概念方面的具体细节,却说的不那么准确,这也是自己在这几个方面也没有细细考究过的原因吧。经过看了些这几个概念的资料,发现同...

2019-01-21 15:38:21

阅读数 90

评论数 0

聊聊Linux 五种IO模型

上一篇《聊聊同步、异步、阻塞与非阻塞》已经通俗的讲解了,要理解同步、异步、阻塞与非阻塞重要的两个概念点了,没有看过的,建议先看这篇博文理解这两个概念点。在认知上,建立统一的模型。这样,大家在继续看本篇时,才不会理解有偏差。 那么,在正式开始讲Linux IO模型前,比如:同步IO和异步IO,阻塞...

2019-01-21 15:35:18

阅读数 106

评论数 0

高性能的IO体系设计同步异步阻塞非阻塞

在高性能的IO体系设计中,有几个名词概念常常会使我们感到迷惑不解。具体如下: 序号 问题 1 什么是同步? 2 什么是异步? 3 什么是阻...

2019-01-21 11:09:52

阅读数 58

评论数 0

Spark原理

一、Spark原理  1、Spark的运行原理i、分布式Ii、主要基于内存(少数情况基于磁盘)Iii、迭代式计算2、Spark 计算模式 VS  MapReduce  计算模式对比           Mr这种计算模型比较固定,只有两种阶段,map阶段和reduce阶段,两个阶段结束    后,任...

2018-07-03 11:23:11

阅读数 304

评论数 0

MongoDB + Spark: 完整的大数据解决方案

http://blog.csdn.net/u010385646/article/details/52712605Spark介绍按照官方的定义,Spark 是一个通用,快速,适用于大规模数据的处理引擎。通用性:我们可以使用Spark SQL来执行常规分析, Spark Streaming 来流数据处...

2018-03-20 16:32:03

阅读数 708

评论数 0

oracle的空间数据库

oracle的空间数据库: 2007-12-21 16:31:12 分类: Oracle ...

2018-01-19 14:27:25

阅读数 537

评论数 0

Spark编程指南——Python版

摘要:对于1个年仅5岁的开源项目来说,其远谈不上尽善尽美,就比如文档相关。本文翻译自Spark Programming Guide,选取了其中使用Python的部分。 自开源之日至今,Spark已经5岁了。从最初不到4000行代码发展到当下通用大数据处理引擎的有力竞争者,Spark一直保持着小而...

2018-01-16 15:50:34

阅读数 558

评论数 0

Hive UDF开发指南

https://www.cnblogs.com/hd-zg/p/5947468.html 编写Apache Hive用户自定义函数(UDF)有两个不同的接口,一个非常简单,另一个...就相对复杂点。 如果你的函数读和返回都是基础数据类型(Hadoop&Hiv...

2018-01-12 17:10:03

阅读数 408

评论数 0

【Hive七】Hive用户自定义聚合函数(UDAF)

用户自定义聚合函数,用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。 问题:UDF也可以提供输入多个参数然后输出一个结果的运算,比如加法运算add(3,5),add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么? ...

2018-01-11 18:05:43

阅读数 479

评论数 0

数据预处理_数据清理

1、概述 实际的数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源。低质量的数据将会导致低质量的挖掘结果。有大量的数据预处理技术: - - 数据清理:可以用来清楚数据中的噪声,纠正不一致。 - - 数据集成:将数据由多个数据源合并成一个一致的数据存储,如...

2018-01-11 15:40:53

阅读数 10020

评论数 1

ETL处理过程介绍

为提高数据仓库数据质量,需要在ETL过程进行数据清洗。本文首先提出了ETL过程进行数据清洗应解决的问题,然后通过分析现有的ETL处理方式说明应采用数据库中的ETL处理,介绍了数据质量和数据清洗的原理并提出了数据清洗在ETL中的应用模型,最后通过实例说明数据清洗的具体实现。     ...

2018-01-11 15:15:34

阅读数 793

评论数 0

ETL工具总结

ETL工具总结 ETL的考虑        做数据仓库系统,ETL是关键的一环。说大了,ETL是数据整合解决方案,说小了,就是倒数据的工具。回忆一下工作这么些年来,处理数据迁移、转换的工作倒还真的不少。但是那些工作基本上是一次性工作或者很小数据量,使用access、D...

2018-01-11 11:47:59

阅读数 310

评论数 0

ETL介绍与ETL工具比较

ETL介绍与ETL工具比较 转载 2017年03月04日 16:10:30 标签:ETL 本文转载自:http://blog.csdn.net/u013412535/article/details/43462537 ETL,是英文 Ext...

2018-01-11 10:08:48

阅读数 428

评论数 0

最详细大数据项目落地路线图实践总结

最详细大数据项目落地路线图实践总结 2017-01-14 16:38 大数据 今天,来谈一谈“大数据项目如何落地?”这个话题。从事过多个大数据项目的规划方案及项目落地工作,在这里与大家分享一些心得,主要是关于大数据项目如何成功落地并取得预期目标,也可以说这些是实践出来的观点。 ...

2018-01-07 00:32:16

阅读数 9591

评论数 7

ArcGIS矢量数据模型

在过去20年中,矢量数据模型是GIS中变化最大的方面,例如,ESRI公司所开发每种新软件包都对应一种新的矢量数据模型,ArcView对应Shapefile,Arc/Info对应Coverage,ArcGIS对应Geodatabase。Shapefile和Coverage是地理关系数据模型,它利用分...

2017-12-01 14:41:33

阅读数 1757

评论数 0

架构设计:系统存储(20)——图片服务器:需求和技术选型(2)

v 3-5、其它技术选型说明 3-5-1、关于关系型数据库 关于持久化存储的数据库技术要注意一点,实际上它并不是图片服务的必要组件。例如,我们在进行设计时可以将图片访问的URL地址直接对应图片文件在服务器上的存储地址,并按照一定的规则将图片文件重命名成一个系统中唯一的文件名,最后再删除Red...

2017-11-24 09:44:52

阅读数 437

评论数 0

Hive集成Mysql作为元数据

Hive集成Mysql作为元数据 默认情况下,Hive元数据保存在内嵌的 Derby 数据库中,只能允许一个会话连接,只适合简单的测试。为了支持多用户多会话,则需要一个独立的元数据库,我们使用 MySQL 作为元数据库,Hive 内部对 MySQL 提供了很好的支持,配置一个独立的元数据库需要增...

2017-11-06 16:24:29

阅读数 316

评论数 0

Hive学习之Metastore及其配置管理

在学习Hive的配置管理参数时,曾将参数分为四类:Hive管理参数、Hive元存储(Metastore)管理参数、与Hadoop交互的管理参数、用于传递运行时信息的参数,当时并没有对Metastore参数进行深入的学习,现在就开始学习这部分的内容。        Hive中表和分区的所有元数据都存...

2017-11-06 15:11:44

阅读数 397

评论数 0

Spark性能优化指南——基础篇

http://mp.weixin.qq.com/s?__biz=MjM5NDMwNjMzNA==&mid=2651805828&idx=1&sn=2f413828d1fdc6a64bdbb25c51508dfc&scene=2&srcid=0519iChOE...

2017-10-23 15:59:26

阅读数 162

评论数 0

spark submit参数调优

在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资...

2017-10-21 17:21:39

阅读数 248

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭