大数据
秦岭熊猫
喜欢运动,喜欢结交朋友,希望可以结识更多的志同道合的朋友一起学习成长。欢迎留言交流。联系邮箱:liinux@qq.com
展开
-
Windows Server2012 64位安装OpenSSH服务
系统配置信息如下:新安装的系统,防火墙暂时关闭下载OpenSSH-Win32或OpenSSH-Win64 安装包,根据不同的系统选择不同的安装包,如果是64位系统,选择32位可以。下载地址:https://github.com/PowerShell/Win32-OpenSSH/releases如果不能下载,可能是被墙掉了。下面附上网盘中的下载地址:https://pan.baidu.com/s/1zfzlzDMnxiulQy6ZjFGDKQ2. 下载完成后解压,修改解压后的文件夹名称为Op.原创 2020-08-12 23:24:14 · 7446 阅读 · 3 评论 -
OpenRefine使用教程
无论是现今的大数据还是企业内部的小数据,都存在一些普遍的问题,如数据格式不对需要转换,一个单元格内包含多个含义的内容,包含重复项等等,虽然我们也可以使用excel解决,但是excel天生有诸多限制,比如其为直接对数据进行操作,容易导致误操作;数据量大会处理缓慢;透视表功能太过简单;无法进行高级的数据分类分析。而OpenRefine很好的解决了以上问题,最重要的一点是它还是免费的!!确认错误是保证数据质量的第一步,主要包括数据画像和数据清洗。数据画像 Olson定义为:使用统计方法发现数据的结构、内容原创 2020-07-26 14:58:17 · 8819 阅读 · 6 评论 -
HTTP、websocket、XMPP、COAP、MQTT和DDS协议对比
对于物联网,最重要的是在互联网中设备与设备的通讯,现在物联网在internet通信中比较常见的通讯协议包括:HTTP、websocket、XMPP、COAP、MQTT1、HTTP和websocket在互联网时代,TCP/IP协议已经一统江湖,现在的物联网的通信架构也是构建在传统互联网基础架构之上。在当前的互联网通信协议中,HTTP协议由于开发成本低,开放程度高,几乎占据大半江山,所以很多厂商在构建物联网系统时也基于http协议进行开发。包括google主导的physicweb项目,都是期望在传统w.转载 2020-05-19 12:49:51 · 1625 阅读 · 0 评论 -
RSocket 基于消息传递的反应式应用层网络协议
下面基于RSocket的一些主要特性分别做一下介绍,并和HTTP之类的常见协议进行比较:Multiplexed, Binary Protocol 多路复用的二进制协议 Bidirectional Streaming 双向流 Flow Control 流控制 Socket Resumption 连接恢复 Message passing 消息传递模型 Transport independent 与传输层解耦的应用层协议一、Multiplexed Binary Protocol现在Multip原创 2020-05-15 22:54:21 · 1195 阅读 · 0 评论 -
ETL工具选型参考
ETL工具选型目前主流的ETL工具有Kettle、talend、NiFi、datastage、informatica、cogons、SSIS等,其中NiFi、kettle和talend是开源软件,其他均为商业软件。成本开源软件本身是不收费的,所以主要成本在培训和咨询方面,成本会维持在一个相对较低的水平。商业软件本身收费较高,一般会提供几次免费的咨询服务或技术支持。易用性NiFi:有非常容易使用的WEB UI,社区活跃度较高。Talend:有 GUI 图形界面但是以 Eclipse原创 2020-05-15 13:32:01 · 4478 阅读 · 0 评论 -
Spark、Strom、Flink和Beam的技术选型
Spark streaming、Storm、Flink和Beam都是开源的分布式系统,具有低延迟、可扩展和容错性诸多优点,允许你在运行数据流代码时,将任务分配到一系列具有容错能力的计算机上并行运行,都提供了简单的API来简化底层实现的复杂程度。StormStorm中的核心抽象是“stream”。流是无限制的元组序列。Storm提供了用于以分布式且可靠的方式将流转换为新流的原语。例如,可以将推文流转换为趋势主题流。Storm为进行流转换提供的基本原语是“spouts”和“bolts”。spouts原创 2020-05-15 13:25:57 · 1905 阅读 · 0 评论 -
HDF5文件介绍
一、HDF5文件介绍Hierarchical Data Format Version 5, HDF5: 层次性数据格式第五版是一种存储相同类型数值的大数组的机制,适用于可被层次性组织且数据集需要被元数据标记的数据模型常用的接口模块为 h5pyHDF5 三大要素:hdf5 files: 能够存储两类数据对象 dataset 和 group 的容器,其操作类似 python 标准的文件操作;File 实例对象本身就是一个组,以 / 为名,是遍历文件的入口dataset(array-like):原创 2020-05-11 13:38:45 · 3454 阅读 · 0 评论 -
Etcd分布式存储系统
什么是ETCD随着CoreOS和Kubernetes等项目在开源社区日益火热,它们项目中都用到的etcd组件作为一个高可用、强一致性的服务发现存储仓库,渐渐为开发人员所关注。在云计算时代,如何让服务快速透明地接入到计算集群中,如何让共享配置信息快速被集群中的所有机器发现,更为重要的是,如何构建这样一套高可用、安全、易于部署以及响应快速的服务集群,已经成为了迫切需要解决的问题。etcd为解...原创 2020-05-08 00:12:04 · 248 阅读 · 0 评论 -
分布式存储系统Minio简介
概述Minio 是一个基于Go语言的对象存储服务。它实现了大部分亚马逊S3云存储服务接口,可以看做是是S3的开源版本,非常适合于存储大容量非结构化的数据,例如图片、视频、日志文件、备份数据和容器/虚拟机镜像等,而一个对象文件可以是任意大小,从几kb到最大5T不等。区别于分布式存储系统,minio的特色在于简单、轻量级,对开发者友好,认为存储应该是一个开发问题而不是一个运维问题。存储架构...原创 2020-04-12 22:43:57 · 9065 阅读 · 1 评论 -
RDMA(远程直接数据存取)概述
背景面对高性能计算、大数据分析和浪涌型IO高并发、低时延应用,现有TCP/IP软硬件架构和应用高CPU消耗的技术特征根本不能满足应用的需求。这要有体现在处理延时过大,数十微秒;多次内存拷贝、中断处理,上下文切换、复杂的TCP/IP协议处理、网络延时过大、存储转发模式和丢包导致额外延时;如今,服务器的网络带宽越来越高。当网络带宽迈过万兆这条线后,操作系统用于处理网络IO的开销就越来越难以忽视。...原创 2020-04-08 00:32:30 · 845 阅读 · 0 评论 -
git-ftp:用git管理ftp服务器简单入门
ftp管理不能实现版本控制,而且多电脑工作时,同步很成问题。git-ftp可以完美的解决问题下面是我的趟坑之路,本机的环境是win10,首先你的机器得装有git。git-ftp的地址https://github.com/git-ftp/git-ftp/一、安装git-ftp 查看install.md文件中关于windows的内容;主要说的是下载带sftp支持的curl,但实际...原创 2020-04-07 19:26:55 · 1721 阅读 · 0 评论 -
使用OpenResty搭建高性能服务端
Socket编程Linux Socket编程领域为了处理大量连接请求场景,需要使用非阻塞I/O和复用,select、poll、epoll是Linux API提供的I/O复用方式,自从Linux2.6中加入了epoll之后,高性能服务器领域得到广泛的应用,Nignx就是使用epoll来实现I/O复用支持高并发。对于“高性能”服务端而言,我们所关注的并不是语言的性能,而是缓存和语言支持异步非阻...原创 2020-03-14 17:11:46 · 281 阅读 · 0 评论 -
DFS-分布式文件系统对比
需求按优先级顺序如下:1)存放3TB以上中小型文件,图片为主,平均在500~700k,一般在1M以内。2)要集群化,支持负载均衡,高可用高性能。有大企业使用背书最好。3)提供Java程序上传文件的手段。Java代码可以在Windows环境下调试。4)必须开源,作者能保持更新。5)有运维监控手段,能快速定位出问题的服务器。6)(加分项)新增存储服务器时,不需要更改Nginx...原创 2020-03-09 23:39:50 · 683 阅读 · 0 评论 -
数据中心二十条
作者:何宝宏1.数据中心就是IT业里最像做房地产的,房地产业里最像做IT的。2.5G、云计算和工业互联网等是数字社会的基础设施,而数据中心则是这些基础设施的基础设施。3.数据中心就是计算机,都是提供计算资源或服务的。4.计算机的历史就是数据中心的未来。5.未来10-20年内,依然是数据中心的黄金时代,全球市场将保持10%以上,中国20-30%的增长...原创 2020-01-17 12:25:49 · 216 阅读 · 0 评论 -
大数据四十二条
作者:何宝宏 每个时代的人,都会认为自己所面对的数据太大了。 每个时代对大的理解都不同,古汉语中“三”就很大了,后来是“九”。 所谓大数据,就是一个如何将数据变小的过程。 2019年,大数据的“大”已不再是核心问题,核心是如何更快,比如流计算。 数据大了价值不一定就高,价值更可能被大噪音淹没掉。 主张让大数据放弃追求因果关系,就是要让我们回退...原创 2020-01-16 12:50:40 · 1543 阅读 · 0 评论 -
一位大牛架构师的经验总结
架构师是一个既能掌控整体又能洞悉局部瓶颈并依据具体的业务场景给出解决方案的团队领导型人物。看似完美的“人格模型”背后,是艰辛的探索。今天,阿里巴巴技术专家九摩将多年经验,进行系统性地总结,帮助更多架构师在进阶这条路上走得更“顺畅”,姿态更“优雅”。架构师职责架构师不是一个人,他需要建立高效卓越的体系,带领团队去攻城略地,在规定的时间内完成项目。架构师需要能够识别定义并确认需求,能够进行...原创 2019-12-25 21:55:46 · 1348 阅读 · 0 评论 -
15分钟搞定OLAP查询引擎Phoenix
Phoenix is an open source SQL skin for HBase. You use the standard JDBC APIs instead of the regular HBase client APIs to create tables, insert data, and query your HBase data.(Phoenix是构建在HBase上的一个SQL层...原创 2019-12-10 23:45:33 · 556 阅读 · 0 评论 -
数据仓库中OLTP和OLAP的区别
联机事务处理OLTP(on-line transaction processing) 主要是执行基本日常的事务处理,比如数据库记录的增删查改。比如在银行的一笔交易记录,就是一个典型的事务。OLTP的特点一般有:1.实时性要求高。我记得之前上大学的时候,银行异地汇款,要隔天才能到账,而现在是分分钟到账的节奏,说明现在银行的实时处理能力大大增强。2.数据量不是很大,生产库上的数据量一般不...原创 2019-12-10 23:37:48 · 276 阅读 · 0 评论 -
presto、druid、sparkSQL、kylin的对比分析
开源的OLAP引擎,按照查询类型划分,OLAP一般分为即席查询和固化查询。即席查询:通过手写sql完成一些临时的数据分析需求,这类sql形式多变、逻辑复杂,对查询时间没有严格要求固化查询:指的是一些固化下来的取数、看数需求,通过数据产品的形式提供给用户,从而提高数据分析和运营的效率。这类的sql固定模式,对响应时间有较高要求。按照架构实现划分,主流的OLAP引擎主要有下面三点:MP...原创 2019-12-10 23:27:47 · 488 阅读 · 0 评论