- 博客(8)
- 资源 (3)
- 收藏
- 关注
转载 教你如何迅速秒杀掉:99%的海量数据处理面试题
教你如何迅速秒杀掉:99%的海量数据处理面试题作者:July出处:结构之法算法之道blog前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名,:-),同时,此文可以看做是对这篇文章:十道海量数据处理面试题与十个方法大总结的一般抽象性总结。
2015-04-16 19:18:26 1524
转载 十道海量数据处理面试题
1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000
2015-04-16 19:04:41 921
转载 深入浅出谈数据挖掘——数据挖掘主要解决的四类问题
数据挖掘主要侧重解决四类问题:分类、聚类、关联、预测(关于这四类问题后文会详细阐述),而常规数据分析则侧重于解决除此之外的其他数据分析问题:如描述性统计、交叉报表、假设检验等。数据挖掘非常清晰的界定了它所能解决的几类问题。这是一个高度的归纳,数据挖掘的应用就是把这几类问题演绎的一个过程。下面让我们来看看它所解决的四类问题是如何界定的:1、分类问题分类问题属于预测性的问题,但是它跟普通预测问题的
2015-04-16 14:19:19 3935
原创 在JAVA中使用weka:预处理使用过滤器
NumericToNominal filter=new NumericToNominal();String options[]=new String[2];options[0]="-R";options[1]="3,10";filter.setOptions(options);DataSource dataSource=new DataSource(trainFile[0].getAbso
2015-04-09 14:18:29 1928 2
转载 案例:基于大数据的餐饮公司会员营销及O2O应用策略
来源:软件定义世界主讲嘉宾:龚光宇,上海一茶一坐餐饮有限公司CIO&CMO,来自台湾,24年IT工作经验,2004年加入上海一茶一坐餐饮有限公司任CIO,2012年兼任CMO,2011年IT经理世界中国优秀CIO,2011年ITValue最具价值CIO。大家好,我是一茶一坐龚光宇,很高兴有机会在这个群里跟大家分享,有关我们近两年做的一些会员经营及O2O案例。希望大家不吝指教。
2015-04-03 11:32:07 3424
转载 十三种常用的数据挖掘的技术
来源:http://www.itongji.cn/article/041G9592013.html一、前 沿 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘的任务是从数据集中发现模式,可以发现的模式有很多种,按功能可以分为两大类:预测性(Predictive)模式和描述性(Descripti
2015-04-03 11:25:33 15306
原创 随机森林
http://www.cnblogs.com/wentingtu/archive/2011/12/13/2286212.html基础内容:这里只是准备简单谈谈基础的内容,主要参考一下别人的文章,对于随机森林与GBDT,有两个地方比较重要,首先是information gain,其次是决策树。这里特别推荐Andrew Moore大牛的Decision Trees Tutorial,与Info
2015-04-02 22:14:23 1245 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人