自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Bryan__的专栏

https://github.com/YouChouNoBB

  • 博客(8)
  • 资源 (3)
  • 收藏
  • 关注

转载 教你如何迅速秒杀掉:99%的海量数据处理面试题

教你如何迅速秒杀掉:99%的海量数据处理面试题作者:July出处:结构之法算法之道blog前言   一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名,:-),同时,此文可以看做是对这篇文章:十道海量数据处理面试题与十个方法大总结的一般抽象性总结。

2015-04-16 19:18:26 1524

转载 十道海量数据处理面试题

1、海量日志数据,提取出某日访问百度次数最多的那个IP。      首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000

2015-04-16 19:04:41 921

转载 深入浅出谈数据挖掘——数据挖掘主要解决的四类问题

数据挖掘主要侧重解决四类问题:分类、聚类、关联、预测(关于这四类问题后文会详细阐述),而常规数据分析则侧重于解决除此之外的其他数据分析问题:如描述性统计、交叉报表、假设检验等。数据挖掘非常清晰的界定了它所能解决的几类问题。这是一个高度的归纳,数据挖掘的应用就是把这几类问题演绎的一个过程。下面让我们来看看它所解决的四类问题是如何界定的:1、分类问题分类问题属于预测性的问题,但是它跟普通预测问题的

2015-04-16 14:19:19 3935

原创 在JAVA中使用weka:预处理使用过滤器

NumericToNominal filter=new NumericToNominal();String options[]=new String[2];options[0]="-R";options[1]="3,10";filter.setOptions(options);DataSource dataSource=new DataSource(trainFile[0].getAbso

2015-04-09 14:18:29 1928 2

转载 案例:基于大数据的餐饮公司会员营销及O2O应用策略

来源:软件定义世界主讲嘉宾:龚光宇,上海一茶一坐餐饮有限公司CIO&CMO,来自台湾,24年IT工作经验,2004年加入上海一茶一坐餐饮有限公司任CIO,2012年兼任CMO,2011年IT经理世界中国优秀CIO,2011年ITValue最具价值CIO。大家好,我是一茶一坐龚光宇,很高兴有机会在这个群里跟大家分享,有关我们近两年做的一些会员经营及O2O案例。希望大家不吝指教。

2015-04-03 11:32:07 3424

转载 十三种常用的数据挖掘的技术

来源:http://www.itongji.cn/article/041G9592013.html一、前 沿    数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘的任务是从数据集中发现模式,可以发现的模式有很多种,按功能可以分为两大类:预测性(Predictive)模式和描述性(Descripti

2015-04-03 11:25:33 15306

原创 算法可视化

http://www.comp.nus.edu.sg/~stevenha/visualization/index.html

2015-04-02 22:21:00 1593

原创 随机森林

http://www.cnblogs.com/wentingtu/archive/2011/12/13/2286212.html基础内容:这里只是准备简单谈谈基础的内容,主要参考一下别人的文章,对于随机森林与GBDT,有两个地方比较重要,首先是information gain,其次是决策树。这里特别推荐Andrew Moore大牛的Decision Trees Tutorial,与Info

2015-04-02 22:14:23 1245 2

机器学习/数据挖掘岗面试准备

参加各大公司面试时准备的复习资料,已经拿到百度,腾讯,华为offer

2016-09-26

9个大数据竞赛方案分享,其中6次获得top10

对参加过的9个大数据竞赛一个浓缩的解决方案总结 其中9个比赛6次获得top10

2016-06-15

数据挖掘比赛经验

之前应老师要求,跟学弟学妹们吹了下牛。只准备了一天,水平有限,看看就好

2016-05-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除