自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据之路

专注数据架构 外功修行,内功修神

  • 博客(11)
  • 资源 (3)
  • 论坛 (1)

转载 大数据风控指标----查准率与查全率

大数据风控指标介绍2016-03-24 大林1查准率与查全率先说个例子,申请人有400个,其中有160个是好人,240个是坏人。我们用一个模型A,挑出了100个好人,其中真正的好人是80个,剩下20个是漏网之鱼。我们定义一个“查准率”(precision),为挑出来的好人中,真正是好人的比例。即: 同时,我们定义一个“查全率”(recall),为查出来的好人占总的好人的比例。即:“查准率”和“查全

2016-03-24 22:33:25 3349

原创 YARN和MapReduce的内存设置参考

如何确定Yarn中容器Container,Mapreduce相关参数的内存设置,对于初始集群,由于不知道集群的类型(如CPU密集、IO密集还是网络密集)我们需要根据经验提供给我们一个参考配置值,来作为基础的配置。完成这一任务有两种方式,确定YARN和MapReduce的内存设置,我们可以使用HDP工具脚本进行内存配置设定运行hdp-configuration-utils.py 这个Python脚本

2016-03-21 23:11:50 8314 1

转载 不要在linux上启用net.ipv4.tcp_tw_recycle参数

不要在linux上启用net.ipv4.tcp_tw_recycle参数发布于 2015/07/27 莿鸟栖草堂本文为翻译英文BLOG《Coping with the TCP TIME-WAIT state on busy Linux servers》,但并非完整的翻译,译者CFC4N对原文理解后,进行了调整,增加了相关论点论据,跟原文稍有不同。翻译的目的,是为了加深自己知识点的记忆,以及分享给其

2016-03-20 07:51:03 2784

原创 [Spark经验一]Spark RDD计算使用的函数里尽量不要使用全局变量

比如RDD里的计算调用了别的组件类里的方法(比如hbase里的put方法),那么序列化时,会将该方法所属的对象的所有变量都序列化的,可能有些根本没有实现序列化导致直接报错。也就是spark的api没有做到用户无感知,在使用一些全局方法时还需自己控制。简单点,能定义在计算函数内的方法就定义在里面。

2016-03-19 22:33:03 7086 3

转载 电商数据分析基础指标体系

电商数据分析基础指标体系 傅志华 信息流、物流和资金流三大平台是电子商务的三个最为重要的平台。而电子商务信息系统最核心的能力是大数据能力,包括大数据处理、数据分析和数据挖掘能力。无论是电商平台(如淘宝)还是在电商平台上销售产品的卖家,都需要掌握大数据分析的能力。越成熟的电商平台,越需要以通过大数据能力驱动电子商务运营的精细化,更好的提升运营效果,提升业绩。构建

2016-03-15 18:26:07 5025

原创 HBase客户端访问超时的多个因素及参数

在一个需要低延时响应的hbase集群中,使用hbase默认的客户端超时配置简直就是灾难。但是我们可以考虑在客户端上加上如下几个参数,去改变这种状况

2016-03-14 16:03:21 2649 2

转载 机器学习路线图

机器学习路线图(附资料)1. 引言也许你和这个叫『机器学习』的家伙一点也不熟,但是你举起iphone手机拍照的时候,早已习惯它帮你框出人脸;也自然而然点开今日头条推给你的新闻;也习惯逛淘宝点了找相似之后货比三家;亦或喜闻乐见微软的年龄识别网站结果刷爆朋友圈。恩,这些功能的核心算法就是机器学习领域的内容。套用一下大神们对机器学习的定义,机器学习研究的是计算机怎样模拟人类的学习行为,以获取新的知识或技

2016-03-10 18:51:27 2101

转载 序列化对单例的破坏

序列化对单例的影响本文将通过实例+阅读Java源码的方式介绍序列化是如何破坏单例模式的,以及如何避免序列化对单例的破坏。单例模式,是设计模式中最简单的一种。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问,从而方便对实例个数的控制并节约系统资源。如果希望在系统中某个类的对象只能存在一个,单例模式是最好的解决方案。关于单例模式的使用方式,可以阅读单例模式的七种写法但是,单例模式真的

2016-03-10 17:31:50 1287

转载 数据分析侠A的成长故事

数据分析侠A的成长故事面包君 同学A:22岁,男,大四准备实习,计算机专业,迷茫期作为一个很普通的即将迈入职场的他来说,看到周边的同学都找了技术开发的岗位,顿觉自己很迷茫,因为自己不是那么喜欢钻研写代码,而自己又没太多的经验。那年他实习,选择了一家国内一线梯队的电商公司,HR问道想选择什么岗位,而他本人自己也比较困惑,说对数据感兴趣。而恰好那年公司打算成立一个数据部门,就把同学A分配到了市场部的数

2016-03-09 10:46:40 43946 6

原创 [解决] User [dr.who] is not authorized to view the logs for application

User [dr.who] is not authorized to view the logs for application原因 Resource Manager UI的默认用户dr.who权限不正确

2016-03-02 21:26:42 7656

原创 [解决] Error Code: 1044. Access denied for user 'root'@'%' to database

SQLException : SQL state: 42000 com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Access denied for user 'root'@'%' to database 'ranger' ErrorCode: 1044

2016-03-01 11:27:15 21263 1

正则表达式验证工具.exe

正则表达式验证工具 验证正则正确与否的利器 验证java、javascript等等,非常棒的软件,推荐下

2013-03-28

GIAC架构大会-承载每天万级任务的调度系统架构是如何设计的.pdf

承载每天万级任务的调度系统架构是如何设计的 分布式任务调度系统如何设计? 开源分布式任务调度系统介绍

2019-07-07

ippicv_linux_20151201.tgz

Ubuntu16.04安装OpenCV3.2.0过程中,在cmake下载过程中可能会出现 ICV:DOWNLONDING ippicv_linux_20151201.tgz 但是一直下载不下来,自己可以手动下载,把压缩包放到opencv3.2.0->ippic->Download下

2018-04-07

代立冬的留言板

发表于 2020-01-02 最后回复 2020-01-02

空空如也
提示
确定要删除当前文章?
取消 删除