白乔专栏

资深感性程序员,大数据爱好者,中国科学院博士

排序:
默认
按更新时间
按访问量
RSS订阅

转载:用户画像建设过程简析

https://mp.weixin.qq.com/s?__biz=MzI0NzAwMzcyNQ==&mid=2247483655&idx=1&sn=11b9bf9c862e88ae6b744c1374e3335f&am...

2018-11-28 17:50:40

阅读数:66

评论数:0

转载:用户画像系统原型

https://mp.weixin.qq.com/s/kEstjsrMhk7lfEk67r7Vnw 用户画像的概念在前面写的一系列文章有过详细介绍,感兴趣的可以翻阅。这篇梳理下一个完整的用户画像产品有哪些功能,给出一个比较粗略的产品原型。   用户画像建设过程简析|连载一 建立用户画像的标...

2018-11-28 17:32:33

阅读数:13

评论数:0

分布式系统唯一ID生成方案汇总

https://www.cnblogs.com/haoxinyue/p/5208136.html 系统唯一ID是我们在设计一个系统的时候常常会遇见的问题,也常常为这个问题而纠结。生成ID的方法有很多,适应不同的场景、需求以及性能要求。所以有些比较复杂的系统会有多个ID生成的策略。下面就介绍一些常...

2018-10-28 11:02:13

阅读数:83

评论数:0

HBase的rowkey的设计原则

https://www.cnblogs.com/yuguoshuo/p/6265649.html HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速...

2018-10-28 10:27:11

阅读数:48

评论数:0

ceph存储分布式系统设计系列 -- 基本原理及高可用策略

https://blog.csdn.net/skdkjzz/article/details/50737241?utm_source=blogxgwz1 “分布式系统设计”系列第一篇文章,这篇文章主要介绍一些入门的概念和原理,后面带来一些高可用、数据分布的实践方法!!   ==&amp...

2018-10-27 20:20:48

阅读数:37

评论数:0

分布式小文件系统fastdfs与weedfs的对比

https://www.tuicool.com/articles/uaiimu 最近拿一台双核1G的kvm vps搭建了一个图片的服务器,前面用百度云加速扛着,有了个专业图片存储及CDN的样子。每天还是有50W左右的PV,流量在30G左右。总结一下最近接触过的两个分布式小文件系统weedfs和f...

2018-10-27 19:39:17

阅读数:162

评论数:0

浅谈数据仓库和大数据

转载自https://blog.csdn.net/Gospelanswer/article/details/78208761?utm_source=blogxgwz1 前言 数据仓库是今年来适应利用数据支持决策分析的强烈需求而发展起来的数据库应用技术,诚然,数据仓库以数据库为基础,但是他在需求、...

2018-10-21 11:25:20

阅读数:114

评论数:0

白乔原创:solr cloud的sql查询引擎solr-sql

SolrCloud介绍   在我们应用还很渺小的时候,一台Solr服务器能完全胜任这份工作,随着我们应用慢慢长大,访问也越来越多,一台Solr服务器的弊病也逐渐显现如查询变慢了,机器宕机就无法继续提供服务,于是乎我们引入了Solr集群,通过前端负载均衡和索引Replication来分担一台...

2018-10-20 19:28:58

阅读数:41

评论数:0

白乔原创:图数据在线交互服务器 InteractiveGraph-neo4j

InteractiveGraph-neo4j日前发布v0.0.1版本。 InteractiveGraph-neo4j基于Neo4j数据库为InteractiveGraph提供服务器后端。InteractiveGraph为大型图数据提供了一个基于web的交互操作框架,其数据可以来自于GSON文件,...

2018-10-20 19:13:07

阅读数:50

评论数:0

ceph+s3安装手记

参考资料: https://www.cnblogs.com/ytc6/p/7388654.html http://docs.ceph.com/docs/kraken/start/ https://blog.csdn.net/changtao381/article/details/480156...

2018-07-09 09:39:44

阅读数:587

评论数:0

不看后悔 | 分分钟教你做知识图谱大数据专家

http://chuansong.me/n/1840839551422知识图谱示例假设你想搜与“联想”有关的信息,下图是谷歌搜索结果。请观察左侧和右侧红框的搜索结果有什么不同呢?左侧是传统谷歌搜索返回的一列依相关度排列的网站链接,你要自己打开一个个网页去阅读抽取与“联想”有关的知识。右侧则将一条条...

2018-06-23 20:03:30

阅读数:2601

评论数:0

展示联结数据的内在之美:全新的Neo4j Bloom可视化工具

转载自https://blog.csdn.net/graphway/article/details/80211546四天前,5月2日,在旧金山的Neo4j GraphTour,Neo4j公司的首席执行官Emil Eifrem宣布Neo4j图数据库平台新增一款全新产品:Neo4j Bloom。Neo...

2018-05-30 10:06:17

阅读数:1902

评论数:0

使用Neo4j进行全栈Web开发

转载自http://www.infoq.com/cn/articles/full-stack-web-development-using-neo4j在开发一个全栈web应用时,作为整个栈的底层,你可以在多种数据库之间进行选择。作为事实的数据源,你当然希望选择一种可靠的数据库,但同时也希望它能够允许...

2018-05-30 10:03:56

阅读数:509

评论数:0

Neo4j高级应用技术专题系列 - APOC存储过程库-【1】概述

转载自https://blog.csdn.net/graphway/article/details/78957415前言我最近加入Neo4j,负责亚太地区的产品和技术支持,常驻悉尼。看到国内用户对Neo4j和图数据库的热情,以及应用领域的广泛,让我倍感鼓舞。同时,在和同行们进行交流后,有感于介绍相...

2018-05-30 09:59:37

阅读数:226

评论数:0

TimerTask 和 Quartz比较

转载自https://blog.csdn.net/gongyouong/article/details/72965451精确度和功能   Quartz可以通过cron表达式精确到特定时间执行,而TimerTask不能。Quartz拥有TimerTask所有的功能,而TimerTask则没有。 任务...

2018-05-28 10:39:50

阅读数:134

评论数:0

mysql事务、redo日志、undo日志、checkpoint详解

转自:https://zhuanlan.zhihu.com/p/34650908事务: 说起mysql innodb存储引擎的事务,首先想到就是ACID(不知道的请google),数据库是如何做到ACID的呢?举个例子: 数据库数据存放的文件称为data file;日志文件称为...

2018-05-17 13:24:04

阅读数:448

评论数:0

对ceph radosgw的一些理解

https://blog.csdn.net/wytdahu/article/details/46532245Ceph本质上就是一个rados,利用命令rados就可以访问和使用ceph的对象存储,但作为一个真正产品机的对象存储服务,通常使用的是Restful api的方式进行访问和使用。而rado...

2018-04-16 14:06:10

阅读数:233

评论数:0

知识图谱技术原理介绍

http://www.36dsj.com/archives/39306作者:王昊奋近两年来,随着Linking Open Data[1] 等项目的全面展开,语义Web数据源的数量激增,大量RDF数据被发布。互联网正从仅包含网页和网页之间超链接的文档万维网(Document Web)转变成包含大量描...

2018-02-05 09:49:21

阅读数:1126

评论数:1

spark sql对seq值的包装

spark sql对seq(s1, s2, s3, …)值的包装,seq的每个元素si会被包装成一个Row 如果si为一个简单值,则生成一个只包含一个value列的Row 如果si为一个N-Tuple,则生成一个包含N列的Row特别的,如果N-Tuple是一元组,则视为非元组,即生成一个只包含...

2017-08-23 20:53:52

阅读数:2490

评论数:1

spark中的job和stage

编写了某个任务: val line = sc.textFile("hdfs://vm122:9000/dblp.rdf") line.flatMap { extractProperties }.groupBy(_._1).map(resource2JSON).saveAs...

2017-06-20 13:51:11

阅读数:391

评论数:0

提示
确定要删除当前文章?
取消 删除