范学蠡:从SQL Server到Hadoop的大数据探险之旅

点击上方“蓝字”可以关注我们哦

不知道有多少人和笔者一样,对本来生活网的最初认知是从朋友圈开始的。有那么一段时间,朋友圈里经常看到好友分享的团购信息,诱惑实在太大,我经常也会忍不住参团。本期的采访嘉宾是未来生活网的范学蠡,不过他今天不是和大家分享团购攻略,而是正经聊聊大数据领域的相关技术,他见证了本来生活网的数据仓库从SQL Server到Hadoop生态的演变,他在这方面绝对有话语权。

范学蠡 本来生活网 BI总监

 

范学蠡,曾在Daum负责研发,后进入贝塔斯曼负责多个数据项目,现任本来生活网BI总监。在本来生活网组建了BI团队,建立了基于SQL Server的数据仓库和数据分析体系,现今又从SQL Server转向Hadoop体系,并在此基础上建立了分析型CRM、用户行为数据分析平台等BI应用。

 

在采访之前,笔者对本来生活网的数据库选型做了调查,增加了解的基础上也是为同领域的公司提供一个参考。范学蠡坦言,本来生活网目前主要使用了Mysql、MongoDB 、SQL Server、HBASE、Hive数据库,其核心业务依然是SQL Server集群,大量写入比如用户行为采用Hbase,Mysql主要用于BI系统的集市层。可见,本来生活网的数据库选型很多元化,并且不同的数据库针对不同的业务场景,分工明确。

 

一支竹蒿难撑汪洋海,除了选择正确的数据库之外,一个优秀的大数据团队能够为企业的数据应用和实现商业洞察打下坚实的基础。当然,团队的组成要取决于业务系统的数据是否完善、业务部门对大数据的认知程度。范学蠡说道,“一般来讲从0到完善至少需要一年时间。以我所在部门为例,主要需要数据分析挖掘工程、数据仓库/ETL工程师、Java开发人员、数据产品经理,并且尽可能的培养全才。”

 

随着公司业务量的增大,数据量激增。数据存储系统的选择成了棘手的问题,Hadoop的HDFS长期以来一直是比较受欢迎的分布式文件系统。但据预测,对象存储今年有望替代Hadoop的HDFS代表的分布式文件系统。对于这种观点,范学蠡认为不同阶段的公司选择的存储系统会有所不同,主要考虑数据量的大小、读取与写入的工作量、单条读取还是多条复杂条件查询,对数据时效性、完整性、安全性的要求如何等因素。范学蠡建议公司结合不同的业务场景选择存储系统、甚至在数据量小的情况下用Excel也是个不错的方法。

 

     本届DTCC大会,范学蠡分享的主题是《大数据在本来生活的应用》,主要包括BI技术体系为何要从关系型数据库转向Hadoop生态?什么样的问题导致本来生活网狠下决心走向Hadoop?相信很多还在路上的同学会和本来生活网一样遇到许多困惑和难题,范学蠡此次的分享想必会激发很多技术人的强烈共鸣。

DTCC2017

演讲主题:

大数据在本来生活的应用

演讲时间:

2017年5月11日

星期四

专场: 大数据行

业应用

1.小数据到大数据(介绍本来生活数据仓库的演变:SQL Server到Hadoop生态):a)用SQL Server做数据仓库的优势。b)什么样的问题导致了我们要狠下决心走向hadoop。主要会涉及SQL Server数据仓库实战技术,Hadoop实战技术。2.大数据在CRM中的应用:a)介绍会员流失预测在精细化营销上的应用。b)会员聚类分析的应用。主要会涉及预测算法从训练到应用的过程、聚类分析的关键要点。3.大数据在竟品分析上的应用:a)如何通过挖掘商品评论数据来获知销量、销售额、以及用户满意度。b)如何通过大数据探知竟争对手的运营策略。主要涉及Python 爬虫技术介绍、Python和大数据应用相结合的要点。

演讲

简介

 我知道一种学习

于坚


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值