自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Hadoop之MapReduce

1、 MapReduce是什么?Hadoop MapReduce是一个软甲框架,基于该框架能够很容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的搭集群上,并以一种可靠的、具有容错能力的方式并行地处理上TB 的海量数据。2、MapReduce做什么?MapReduce是用来并行处理海量数据运算的,但是具体是如何进行的呢? 首先,我们要了解他的思想是“分而治之”。MapReduce的

2017-04-25 11:37:16 364

原创 HDFS常用操作

创建目录命令格式:hdfs dfs -mkdir 举例:在hdfs上已有文件夹data下面简历一个新的文件夹zuo hdfs dfs -mkdir /data/zuo读取文件查看文件命令格式: hdfs dfs -ls #列出文件路径下的文件 hdfs dfs -ls -a #列出文件路径下所有的文件,包括隐藏文件 hdfs dfs -ls

2017-03-31 12:06:11 1486

原创 四、模型的制定

一般来说,模型的制定包括几个方面:分析单个变量的预测能力、减少变量的数量、选择适当的模型方法、确定模型的变量组合和权重。  1. 分析单个变量的预测能力   从银行的原始数据库中可以提炼出几百个变量,但是不是所有的预测变量都具有预测能力,同一个变量也不一定在所有的模型中具有同样的预测能力。   通过分析单个变量的预测能力可以找到预测能力强的变量,缩小候选变量的范围。   例如:针对连续性的预

2017-03-26 17:32:12 827

原创 三、模型的分组

模型的分组是指将不同类型的用户区分简历模型。分组的依据是可观测到的用户的行为信息和预测信息。   分组的优点是可以根据不同类别信息分别建立模型,提高模型的预测力。   不利之处是,模型的工作量增加,模型建立成本高;分组后样本数量会下降,特别的“坏”账数量会少很多,不足以达到建模数量,反而降低了模型的预测力。

2017-03-26 15:37:57 1587

原创 FICO信用评分模型解析

美国的信用评级基本都会参考FICO信用分,FICO是Fair Isaac Company推出针对用户哥哥方面情况的评分,范围从300-850分之间。分数越高说明客户的信用风险越小。  一般情况下,用户的FICO分值高于680,则被认为是是好的,低于620分,则会考虑拒绝,介于620-680之间的用户会被进一步调查。但是一般机构也不会直接用FICO作为判断的唯一风险的唯一依据,还会结合用户的其他行为

2017-03-26 15:19:33 14547 1

原创 二、模型的变量

二、模型的变量  信用评分模型的变量主要有两种:表现变量(因变量)和预测变量(自变量)。预测变量是从可观测到的信息中提炼出来的、与表现变量具有较强相关性的、用来预测未来结果的变量。   表现变量的界定:   表现变量是模型所要预测的目标,有些情况下,是容易界定的,例如用户对直邮是反应还是不反应。但是很多时候,是无法直观界定的,需要考虑具体需求。例如,对要预测的目标用户的账户表现认为是坏账,是拖欠

2017-03-26 09:27:39 2188

原创 第五章 信用评分模型的开发流程

目录 一、模型的样本 二、模型的变量一、模型的样本  好的样本是开发模型的首要环节。预测模型的前提是客户的未来行为要与过去相似,所以在选取样本时要考虑样本的代表性,是否能够有效地代表总体。在建立模型的时候不一定要建立在全量样本上,所有涉及到样本的选取:   随机抽样:   随机抽样是在给定样本规模之后从总体中完全随机抽取,每种类型的样本个体是与总体比例一样的。例如,某银行有100万个信用卡账

2017-03-25 17:29:38 3228

原创 Hdfs之SecondaryNameNode

概述  启动集群Hdfs(start-dfs.sh)之后,查看进程(jps)会在master节点上看到,除了namenode进程之外还会有个secondarynamenode进程,从字面上看,很多人会把他当做namenode的“二把手”,当做namenode的备份进程之类的,但实际上他与namenode担任的是不同的角色。主要工作内容  要说secondarynamnode的工作内容,需要回顾一下他

2017-03-10 14:42:22 849

原创 HDFS之NameNode

权利主服务器管理文件的 命名空间  凡是对文件系统命名或其他属性的修改信息都会保存到这里。   比如,有个名为Eva的文件放在目录/usr下,现在要将他改名为zuo,移动到/usr/local目录下,这些修改日志都会被 NameNode的edit log文件记录。存放HDFS的 元数据 信息  即文件系统的目录树以及追踪集群文件,简单来说就是NameNode不实际存储数据,但是他知道数据的存放位置

2017-03-08 10:05:23 2161

原创 HDFS分布式存储及特点

介绍  HDFS是Hadoop应用程序使用的主要分布式存储,主要被设计在商用硬件上运行,也就是说,他必须满足低成本、高容错、高吞吐的特性才能在众多的分布式存储系统中脱颖而出。特点低成本   HDFS实现的分布式存储实际是由数百个甚至数千个服务器提供的(目前Hadoop已经实现了两千多个节点的部署),这比单独使用一台大型服务器在遇到故障时的成本付出要少的多,现在如果某个服务器发生

2017-03-03 20:09:22 8049

原创 Hadoop介绍

这是我自己在学习大数据时的笔记总结,适合可爱的小白们作为扫盲了解,所以会出现很多非专业用语,希望各位专业人士暂时忘掉自己的强迫症,如实在不能忍受,那就闭着眼睛看吧。可能出现一些错误的认识,还希望大家能够及时指出来,共同进步。 什么是Hadoop  Hadoop是Apache软件基金会发行的可靠的、可扩展的、分布式计算的开源软件。   Apache Hadoop软件库是一个允许大规模数据集在

2017-03-03 19:22:26 419

原创 欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-03-03 18:53:43 180

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除