自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

转载 地球如果流浪,大数据究竟能做什么?

每条大街小巷,每个人的嘴里,见面第一句话,就是:「道路千万条,安全第一条,行车不规范,亲人两行泪」。 过了个春节,一眨眼的功夫,当初不太被人看好的《流浪地球》就悄然脱颖而出,蜕变成了「流量地球」? 不得不说,这部电影从剧情、特效到配乐演员几乎都全部在线,口碑也一直蹭蹭蹭往上涨。但有那么一些细节,我看完总觉得非常不服气!比如:好好的杭州城,一个镜头都没出现,一群人冒着生命危险去救了半天,却突然说没...

2019-09-16 11:29:39 136

转载 零售数据观(一):如何花30分钟成为一个标签设计“达人”

作者简介:铁叫兽,10年+数据相关经验,曾在电信、阿里从事过DBA,数仓,解决方案,目前从事零售行业的解决方案。 序言:是否碰到大量的人力投入基于流程管理的信息化系统建设,也运行了好几年了,同时大数据也热了好几年了,但企业IT部门还是无从下手,既不确信大数据是否可以真的带来业务价值也不清楚从哪着手更容易推动大数据项目落地,本文就是通过“标签”,一种基于具体业务场景但同时又是业务人员看的懂的数据的方...

2019-09-04 11:04:17 181

转载 JS源码分析│简易mvvm库的设计实现

作者:刀哥(朱建) 前言:mvvm模式即model-view-viewmodel模式简称,单项/双向数据绑定的实现,让前端开发者们从繁杂的dom事件中解脱出来,很方便的处理数据和ui之间的联动。本文将从vue的双向数据绑定入手,剖析mvvm库设计的核心代码与思路。 1、需求整理与分析 需求: 数据一旦改变则更新数据对应的ui ui改变则触发事件改变ui对应的数据 分析: 通过dom节点...

2019-09-03 14:36:40 105

转载 风剑分享 | 只有数据最懂公司的痛点,指导企业决策走向

只有数据最懂公司的痛点,指导企业决策走向 在2018中国大数据高峰论坛上,数澜科技CEO风剑分享了对数据资产化的理解、大数据平台的建设、大数据落地过程中的挑战,以及数据应用在未来的机遇与挑战。具体全文摘录如下: 一、什么是数据资产化 “数据资产化是数澜一直秉持的概念并持续在做的事情”。 风剑曾经在负责阿里巴巴集团大数据业务的时候,见过很多应用场景。他觉得目前大多数的人对数据的认知并不够,也不能理...

2019-08-21 15:12:47 164

转载 Giraph源码分析(八)—— 统计每个SuperStep中参与计算的顶点数目

作者|白松 目的:科研中,需要分析在每次迭代过程中参与计算的顶点数目,来进一步优化系统。比如,在SSSP的compute()方法最后一行,都会把当前顶点voteToHalt,即变为InActive状态。所以每次迭代完成后,所有顶点都是InActive状态。在大同步后,收到消息的顶点会被激活,变为Active状态,然后调用顶点的compute()方法。本文的目的就是统计每次迭代过程中,参与计算的顶点...

2019-08-20 10:53:53 109

转载 Giraph源码分析(七)—— 添加消息统计功能

作者|白松 1、添加类,把每个超步发送的消息量大小写入Hadoop的Counter中。在org.apache.giraph.counters包下新建GiraphMessages类,来统计消息量。 源代码如下: package org.apache.giraph.counters; import java.util.Iterator; import java.util.Map; import ...

2019-08-19 16:54:30 72

转载 史上最强攻略!手把手教你建「数据中台」!

文章转自「首席数字官」 ID:ChiefDigitalOfficer 作者:李国欢 4 月 24 日晚,由数澜科技联合锦囊专家共同打造的《数据中台硬核汇》系列线上微课第一讲火热开启。1000 位 CXO 同时收听,群友累计提问 30+,问嗨全场!本文为本次微课分享内容整理,错过 24 日晚微课的同学不要慌,干货文章已备好,快来尝鲜吧! 「DT时代真的来了!今天,我国整个行业的模式已经发生了变化,...

2019-08-16 15:45:26 168

转载 惊! 大屏还能长这样!

数据可视化最吸引人的地方在于,通过科学和艺术的完美结合,让隐藏在数据中可预测的和出人意料的故事都变得一目了然。 一个优秀的数据可视化方案,应该同时具备精确度和精美度。 精确度,即使用基本视觉元素的形状、尺寸、颜色和位置来呈现数据的多少和关联关系,让受众快速且正确地阅读数据中隐含的故事,是数据可视化的最基本要求。 精美度,是在精确度的基础之上,为作品注入视觉审美元素,如图形尺寸对比的强弱力度,色...

2019-08-14 11:34:37 65

转载 科技赋能零售,最终还是要消失于无形中

导读: 8月23日,“新零售论坛:零售业的再革命” 由数澜科技与华院数据在上海百联创业空间成功举办。数澜科技参谋长武凯(行竹)就“零售数据中台实践”进行了分享,并在“新零售创业的机遇与挑战”圆桌论坛中发表了独特的见解。 过去的一年里,零售行业正在发生巨变。“新零售”可以说是近年来最热的词汇之一。技术的量变已经开始引发“质变”,对技术的角逐也成为零售企业提升核心竞争力的关键。 2018年8月23日,...

2019-08-13 15:35:30 144

转载 Giraph源码分析(六)——Edge 分析

1.在Vertex类中,顶点的存储方式采用邻接表形式。每个顶点有 VertexId、VertexValue、OutgoingEdges和Halt,boolean型的halt变量用于记录顶点的状态,false时表示active,true表示inactive状态。 片段代码如下。 2.org.apache.giraph.edge.Edge 接口,用于存储顶点的边,每条边包含targetVertexId...

2019-08-12 15:58:34 143

转载 常见的Web安全漏洞及测试方法介绍

常见的Web安全漏洞及测试方法介绍 背景介绍 Web应用一般是指B/S架构的通过HTTP/HTTPS协议提供服务的统称。随着互联网的发展,Web应用已经融入了我们的日常生活的各个方面。在目前的Web应用中,大多数应用不都是静态的网页浏览,而是涉及到服务器的动态处理。如果开发者的安全意识不强,就会导致Web应用安全问题层出不穷。 我们一般说的Web应用***,是指***者通过浏览器或者其他的***工...

2019-08-09 14:45:58 342

转载 Giraph 源码分析(五)—— 加载数据+同步总结

作者|白松 关于Giraph 共有九个章节,本文第五个章节。 环境:在单机上(机器名:giraphx)启动了2个workers。 输入:SSSP文件夹,里面有1.txt和2.txt两个文件。 1、在Worker向Master汇报健康状况后,就开始等待Master创建InputSplit。 方法:每个Worker通过检某个Znode节点是否存在,同时在此Znode上设置Watcher。若不存在,就通...

2019-08-08 11:10:28 73

转载 「数据治理那点事」系列之三:不忘初心方得始终,数据质量管理要稳住!

作者 | 蒋珍波 本文是数据治理系列文章的第三篇,主要讲数据治理中的重要工作:数据质量管理。 我将从数据质量管理的目标,质量问题产生的根源,讲到如何评估数据质量,如何贯彻数据质量管理流程,最后从取与舍两个角度谈谈我对质量问题的一些个人观点。 一、数据质量管理的目标 数据质量管理主要解决「数据质量现状如何,谁来改进,如何提高,怎样考核」的问题。 为什么这篇文章的标题中有“不忘初心方得始终”这几个字呢...

2019-08-07 10:46:50 276

转载 2分钟快速了解企业用户权限

作者|小菜 Hello,大家好,今天给大家讲讲用户权限。可能有人会觉得用户权限有什么好讲的,市面上通用的RBAC权限模型多了去了,还需要你个小菜鸟来讲。说这话的,可能没看到我背上纹的小猪佩奇,信不信我这个社会人给你来点狠的——求着你看完。咳咳…严肃严肃,相信我,看完你会有收获的,没有收获的来砍我,千万不要砍需求。 一、什么是权限 不管是B端产品还是C端产品,权限基本都会出现。常见的比如说知乎、简书...

2019-08-06 11:02:24 160

转载 地产业 X 数据中台

从 IT 时代到 DT 时代,每个企业无一不被「大数据」、「数字化转型」这样陌生又熟悉的词汇环绕着。似乎一夜之间,这条通往未来的数据之路旁早已挤满了拿着车票却不知该如何上车的企业主们,特别是一些传统行业的巨头们,更是早早挤在了队伍的前头。 他们往往凭借着多年的深耕和积累,积累了海量的、价值难以衡量的数据,在传统行业增量市场急剧减少的今天,这些数据如何指导企业对已有的存量市场进行更加精细化运营,则成...

2019-08-05 14:56:54 123

转载 菜鸟的Hadoop快速入门

一、相关概念 1、大数据 大数据是一门概念,也是一门技术,是以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。 大数据包括了以Hadoop和Spark为代表的基础大数据框架,还包括实时数据处理,离线数据处理,数据分析,数据挖掘和用机器算法进行预测分析等技术。 2、Hadoop Hadoop是一个开源的大数据框架,是一个分布式计算的解决方案。 Hadoop的两个核心解决了数据存储问题(H...

2019-08-02 14:40:44 791

转载 一篇搞懂TCP、HTTP、Socket、Socket连接池

前言:作为一名开发人员我们经常会听到HTTP协议、TCP/IP协议、UDP协议、Socket、Socket长连接、Socket连接池等字眼,然而它们之间的关系、区别及原理并不是所有人都能理解清楚,这篇文章就从网络协议基础开始到Socket连接池,一步一步解释他们之间的关系。 七层网络模型 首先从网络通信的分层模型讲起:七层模型,亦称OSI(Open System Interconnection)模...

2019-08-01 14:25:51 90

转载 「数据治理那点事」系列之二:手握数据「户口本」,数据治理肯定稳!

这篇文章主要从数据治理的基础和核心之一:元数据入手,从以下几个角度展开具体讲解: 元数据概念 元数据的分布和采集 元数据的一些实际应用场景 一、元数据到底是个啥? 如果我说:元数据(Meta Data),就是描述数据的数据。没有技术背景加持的路人粉看到这句「绕口令」,内心可能会浮现这样的想法: 简单点,其实元数据相当于数据的户口本。 户口本是什么?它除了包含个人姓名、年龄、性别、××...

2019-07-31 11:07:54 120

转载 关于接口测试——自动化框架的设计与实现

一、自动化测试框架 在大部分测试人员眼中只要沾上“框架”,就感觉非常神秘,非常遥远。大家之所以觉得复杂,是因为落地运用起来很复杂;每个公司,每个业务及产品线的业务流程都不一样,所以就导致了“自动化测试框架”去完成自动化测试的时候产生很多不稳定因素,这样就很难定位成一个固定的框架。其实不然,真正的自动化测试框架不是一个模式,而是一种思想和方法的集合,通俗的讲就是一个架构。 二、自动化测试框架思想 为...

2019-07-26 15:21:28 191

转载 Giraph源码分析(四)—— Master 如何检查Worker启动成功

本文的目的 说明Giraph如何借助ZooKeeper来实现Master与Workers间的同步(不太确定)。 环境 在单机上(机器名:giraphx)启动了2个workers。 Giraph遵从单Master多Workers结构,BSPServiceMaster使用MasterThread线程来进行全局的同步。每个Worker启动成功后,会向Master汇报自身的健康状况,那么Master是如何...

2019-07-26 10:32:16 114

转载 Giraph源码分析(三)—— 消息通信

由前文知道每个BSPServiceWorker有一个WorkerServer对象,WorkerServer对象里面又有ServerData对象,作为数据实。ServerData中包含该Worker的partitionStore、edgeStore、incomingMessageStore、currentMessageStore、聚集值等。其中incomingMessageStore对象为Messa...

2019-07-25 14:39:26 79

转载 “数据治理那点事”系列之一:那些年我们一起踩过的坑

大数据时代,数据成为社会和组织的宝贵资产,像工业时代的石油和电力一样驱动万物,然而如果石油的杂质太多,电流的电压不稳,数据的价值岂不是大打折扣,甚至根本不可用不敢用,因此,数据治理是大数据时代我们用好海量数据的必然选择。 但大家都知道,数据治理是一项长期而繁杂的工作,可以说是大数据领域中的脏活累活,很多时候数据治理厂商做了很多工作,客户却认为没有看到什么成果。大部分数据治理咨询项目都能交上一份让客...

2019-07-25 10:31:42 220

转载 大数据是啥,可以吃的吗?

作者|影姿 关于大数据是什么,从一开始仅仅只想做数据,到开始意识到自己做的是对整个集团有核心意义的数据产品,再到走到外面,把数据能力对外输出,所有过程中,不断的有客户问到这个问题,有懵懂的、有善意的、也有挑衅的、不屑的。就像大数据本身一样,混乱又带有迷幻色彩。 现在对大数据的理解有两种极端:站在大数据的风口,很多人觉得大数据是未来,可以解决所有问题,包括人工智能;我自己不用想,大数据已经替我想好决...

2019-07-23 11:13:04 104

转载 全新一代企业级大数据应用模式揭秘

三个问题 1.当下是否还需要一个复杂的EDW(企业级数据仓库)? 2.数据系统的目标用户是谁? 3.让数据适应计算能力还是计算跟着数据走 数据仓库这个概念在二十多年前由Bill Inmon提出后,几乎所有的IT厂商都开始介入这个领域,为企业级数据仓库设计非常复杂的体系结构和数据模型,典型的企业级数据应用架构如下: 这个架构,层次结构非常清晰,但是链路非常长,导致数据冗余非常大,同时数据表结构关系...

2019-07-23 10:18:56 94

转载 Mock工具wiremock-py

作者 | 咪咪 wiremock-py wiremock-py 是基于 WireMock 实现的, 使用 Python 批量生成不同测试场景下不同HTTP API 的 mock 数据, 然后作为 mock server 快速全面地对 API 进行测试。 背景 在数澜地产应用的前端测试中, 前端一般依赖于后端的数据, 前端通过后端在网关上发布的 HTTP API 获取数据. 要对前端进行充分的测试,...

2019-07-23 10:10:40 142

转载 Giraph源码分析(二)—启动Master/Worker服务

作者 | 白松 注:本文为原创,引用转载需与数澜联系。 1、org.apache.giraph.bsp.CentralizedService 接口 功能:Basic service interface shared by both CentralizedServiceMaster and CentralizedServiceWorker. 2、org.apache.giraph.bsp.Cent...

2019-07-22 20:02:52 119

转载 Giraph源码分析(一)— 启动ZooKeeper服务

作者 | 白松 【注:本文为原创,引用转载需与博主联系。】 Giraph介绍: Apache Giraph is an iterative graph processing system built for high scalability. For example, it is currently used at Facebook to analyze the social graph form...

2019-07-22 19:50:02 63

转载 浅析HDFS架构和设计

作者 | 大尊 hdfs是hadoop的分布式文件系统,即Hadoop Distributed Filesystem。下面主要讲下HDFS设计中的比较重要的点,使读者能通过简短的文章一窥HDFS的全貌,适合对HDFS有一点了解,但是对HDFS又感到困惑的初学者。本文主要参考的是hadoop 3.0的官方文档。 链接:http://hadoop.apache.org/docs/current/had...

2019-07-22 19:44:05 86

转载 你的企业真的需要「数据中台」吗?

作者:铁叫兽 一、如何理解数据中台 在解决你是否需要数据中台这个问题之前,让我们先理理它究竟是什么。 它是工具?是方法?还是组织架构?我的回答是:都不仅仅是。 数据中台包括平台、工具、数据、组织、流程、规范等一切与企业数据资产如何用起来所相关的。 企业所属行业不同,经营策略不同,从而数据场景也千差万别。再加上企业人员运用数据的能力参差不齐,这就导致了每一家企业的数据中台都是独一无二的,不是购买一个...

2019-07-22 19:34:32 121

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除