白乔专栏

资深感性程序员,大数据爱好者,中国科学院博士

Druid创始人Eric Tschetter详解开源实时大数据分析系统Druid

http://www.csdn.net/article/2014-10-30/2822381Druid是一个为大型冷数据集上实时探索查询而设计的开源数据分析和存储系统,提供极具成本效益并且永远在线的实时数据摄取和任意数据处理,并且在面对代码部署、机器故障以及其他产品系统遇到不测时能保持100%正常...

2016-03-18 14:51:24

阅读数 2367

评论数 0

大数据上的流式SQL引擎——StreamCQL

http://www.csdn.net/article/2015-11-13/2826204摘要:StreamCQL是一个类SQL的声明式语言,用于在流和可更新关系上的可持续查询,目的是在流处理平台分布式计算能力之上,开源前已在电信、金融等多个行业成功应用。此次开源便是让更多的开源爱好者用户体验进...

2016-03-16 10:42:52

阅读数 1117

评论数 0

一文读懂机器学习,大数据/自然语言处理/算法全有了……

http://www.open-open.com/lib/view/open1420615208000.html阅读目录1.一个故事说明什么是机器学习2.机器学习的定义4.机器学习的方法5.机器学习的应用–大数据6.机器学习的子类–深度学习7.机器学习的父类–人工智能8.机器学习的思考–计算机的潜...

2016-03-14 21:23:16

阅读数 2746

评论数 0

数据杂谈

http://www.36dsj.com/archives/42783 前言 记得几年前,曾经有人预测过未来最流行的三大技术:大数据、高并发、数据挖掘。到现在来看,这三种技术的确也随着这几年互联网的发展变得越发成熟和可靠。掌握这三种技术的人,不管是求职还是创业,都属于香饽饽。一个很深的印象就是当年...

2016-03-14 12:10:48

阅读数 627

评论数 0

行走在网格之间:微博用户关系模型

http://www.36dsj.com/archives/36545 1      概述 不同于传统互联网媒体,微博作为社交媒体最大的优势在于引入了非对等的用户关系,这种用户关系仅令传播更加高效。如果将微博中的用户视作节点,用户之间的关系视作节点之间的边,那么这些节点和边将构成一个社交的网络拓扑...

2016-03-14 12:10:46

阅读数 2937

评论数 0

TalkingData首席金融行业专家鲍忠铁:18亿数据解读移动互联网

http://www.36dsj.com/archives/33417 鲍忠铁:大家下午好! 今天我会讲三个议题,一是用18亿数据解读现在移动互联网的生态圈。二是看看数据有什么样的应用。三是大数据的隐私保护问题。 我们的数据提及了三次,我们移动互联网的设备是12.4亿,去年年底的时候是10.6亿...

2016-03-14 12:10:44

阅读数 1865

评论数 0

大数据架构和模式

http://www.ibm.com/developerworks/cn/data/library/bd-archpatterns1/index.html 第 1 部分: 大数据分类和架构简介 概述 大数据可通过许多方式来存储、获取、处理和分析。每个大数据来源都有不同的特征,包括数据的频率、量、速...

2016-03-14 12:10:41

阅读数 22656

评论数 0

Deep Learning(深度学习)学习笔记整理

http://blog.csdn.net/zouxy09/article/details/8775360 一、概述        Artificial Intelligence,也就是人工智能,就像长生不老和星际漫游一样,是人类最美好的梦想之一。虽然计算机技术已经取得了长足的进步,但是到目前为止,...

2016-03-14 12:10:39

阅读数 8970

评论数 0

如何组建一支优秀的数据分析团队?

http://www.36dsj.com/archives/38744 Q:数据分析人员能做什么? A:从纷繁的数据里提炼出有价值的信息并给公司提供支持啊。 Q:你怎么提炼啊? A:写程序采集啊,清洗啊,用一定的算法计算数据内部联系,根据业务做出判断啊…… Q:如果都是用已有的算法,这些事情为什么...

2016-03-14 12:10:37

阅读数 1672

评论数 0

Hadoop可视化分析利器之Hue

http://qindongliang.iteye.com/blog/2212619 先来看下hue的架构图:  (1)Hue是什么? Hue是一个可快速开发和调试Hadoop生态系统各种应用的一个基于浏览器的图形化用户接口。 (2)Hue能干什么? 1,访问HDFS和文件浏览 2,通过web调试...

2016-03-14 12:10:35

阅读数 8413

评论数 0

关于烂代码的那些事

http://kb.cnblogs.com/page/526768/ ============上篇============   1. 摘要   最近写了不少代码,review了不少代码,也做了不少重构,总之是对着烂代码工作了几周。为了抒发一下这几周里好几次到达崩溃边缘的情绪,我决定写一篇文章谈一谈...

2016-03-14 12:10:32

阅读数 3537

评论数 3

6个用好大数据的秘诀

http://www.36dsj.com/archives/40815 这篇文章里,有三位来自不同公司的大数据运营人员各自分享了他们运用大数据的经验。这三位是来自维亚康姆(Viacom)的Luzzi、Globys公司的Olly Downs以及知名市场顾问公司Dunnhumby的CEO Andy H...

2016-03-14 12:10:30

阅读数 772

评论数 0

如何一步步从数据产品菜鸟走到骨干数据产品

【文章摘要】网上关于数据分析师的文章很多,但是关于数据产品经理的文章很少,所以经常有各个领域的垂直网站来和我交流,问我数据产品应该怎么做,人怎么培养,团队应该怎么建。所以我就把别人的问题、自己的回答,结合自身的成长经验,做了一个课程。        一、数据产品工作简介:   1. 数据产品经理...

2016-03-14 12:10:28

阅读数 740

评论数 0

用平常语言介绍神经网络

http://wenku.baidu.com/link?url=23jM13V3Qe9Zx84FuEMebOMbTSk4i0Oaa5YPAVL1dfbSFC4G20GYDkUbbRvcJILgTGliXHPQgZqx5ToZscEOt0Iwp4eT71mRZhZ64USYk63 用平常语言介绍神经...

2016-03-14 12:10:26

阅读数 1277

评论数 0

从 LinkedIn 的数据处理机制学习数据架构

http://www.36dsj.com/archives/40584 译者:伯乐在线-塔塔 网址:http://blog.jobbole.com/69344/ LinkedIn是当今最流行的专业社交网站之一,本文描述了LinkedIn是如何管理数据的。如你对文中的观点有异议亦或文中有遗漏的部分请...

2016-03-14 12:10:24

阅读数 1076

评论数 0

大道至简的数据分析方法论

http://www.36dsj.com/archives/40569 作者:王桐 永洪科技 副总裁 引言:你有没有觉得学习数据分析方法时很痛苦?本文,笔者用简单易懂的文笔总结出来一套易学易用的数据分析方法论,让初学者快速掌握数据分析方法中最核心、最常用的要点,至少能满足90%的日常需求。 学习对...

2016-03-14 12:10:21

阅读数 606

评论数 0

网站常见的反爬虫和应对方法

http://www.36dsj.com/archives/40809 在我们的对2016年大数据行业的预测文章《2016年大数据将走下神坛拥抱生活 资本青睐创业机会多》里,我们曾经提到“在2016年,防止网站数据爬取将变成一种生意。”。今天我找到了来自”BSDR“的一篇文章,文章里主要介绍了常见...

2016-03-14 12:10:19

阅读数 709

评论数 0

Android开发学习笔记:Intent的简介以及属性的详解

http://liangruijun.blog.51cto.com/3061169/634411/ 一.Intent的介绍 Intent的中文意思是“意图,意向”,在Android中提供了Intent机制来协助应用间的交互与通讯,Intent负责对应用中一次操作的动作、动作涉及数据、附加数据进行描...

2016-03-14 12:10:17

阅读数 530

评论数 0

跟我一起云计算(6)——openAPI

http://www.cnblogs.com/skyme/p/3435565.html 介绍 Open API即开放API,也称开放平台。 所谓的开放API(OpenAPI)是服务型网站常见的一种应用,网站的服务商将自己的网站服务封装成一系列API(Application Programming ...

2016-03-14 12:10:15

阅读数 1469

评论数 0

Dubbo与Zookeeper、SpringMVC整合和使用(负载均衡、容错)

http://blog.csdn.net/congcong68/article/details/41113239   互联网的发展,网站应用的规模不断扩大,常规的垂直应用架构已无法应对,分布式服务架构以及流动计算架构势在必行,Dubbo是一个分布式服务框架,在这种情况下诞生的。现在核心业务抽取出来...

2016-03-14 12:10:13

阅读数 1211

评论数 0

提示
确定要删除当前文章?
取消 删除