Eva_Z-CSDN博客

原创 Hadoop之MapReduce

1、 MapReduce是什么？Hadoop MapReduce是一个软甲框架，基于该框架能够很容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的搭集群上，并以一种可靠的、具有容错能力的方式并行地处理上TB 的海量数据。2、MapReduce做什么？MapReduce是用来并行处理海量数据运算的，但是具体是如何进行的呢？首先，我们要了解他的思想是“分而治之”。MapReduce的

2017-04-25 11:37:16 364

原创 HDFS常用操作

创建目录命令格式：hdfs dfs -mkdir 举例：在hdfs上已有文件夹data下面简历一个新的文件夹zuo hdfs dfs -mkdir /data/zuo读取文件查看文件命令格式： hdfs dfs -ls #列出文件路径下的文件 hdfs dfs -ls -a #列出文件路径下所有的文件，包括隐藏文件 hdfs dfs -ls

2017-03-31 12:06:11 1486

原创四、模型的制定

一般来说，模型的制定包括几个方面：分析单个变量的预测能力、减少变量的数量、选择适当的模型方法、确定模型的变量组合和权重。　　1. 分析单个变量的预测能力　　从银行的原始数据库中可以提炼出几百个变量，但是不是所有的预测变量都具有预测能力，同一个变量也不一定在所有的模型中具有同样的预测能力。　　通过分析单个变量的预测能力可以找到预测能力强的变量，缩小候选变量的范围。　　例如：针对连续性的预

2017-03-26 17:32:12 827

原创三、模型的分组

模型的分组是指将不同类型的用户区分简历模型。分组的依据是可观测到的用户的行为信息和预测信息。　　分组的优点是可以根据不同类别信息分别建立模型，提高模型的预测力。　　不利之处是，模型的工作量增加，模型建立成本高；分组后样本数量会下降，特别的“坏”账数量会少很多，不足以达到建模数量，反而降低了模型的预测力。

2017-03-26 15:37:57 1587

美国的信用评级基本都会参考FICO信用分，FICO是Fair Isaac Company推出针对用户哥哥方面情况的评分，范围从300-850分之间。分数越高说明客户的信用风险越小。　　一般情况下，用户的FICO分值高于680，则被认为是是好的，低于620分，则会考虑拒绝，介于620-680之间的用户会被进一步调查。但是一般机构也不会直接用FICO作为判断的唯一风险的唯一依据，还会结合用户的其他行为

2017-03-26 15:19:33 14547 1

原创二、模型的变量

二、模型的变量　　信用评分模型的变量主要有两种：表现变量（因变量）和预测变量（自变量）。预测变量是从可观测到的信息中提炼出来的、与表现变量具有较强相关性的、用来预测未来结果的变量。　　表现变量的界定：　　表现变量是模型所要预测的目标，有些情况下，是容易界定的，例如用户对直邮是反应还是不反应。但是很多时候，是无法直观界定的，需要考虑具体需求。例如，对要预测的目标用户的账户表现认为是坏账，是拖欠

2017-03-26 09:27:39 2188

原创第五章信用评分模型的开发流程

目录一、模型的样本二、模型的变量一、模型的样本　　好的样本是开发模型的首要环节。预测模型的前提是客户的未来行为要与过去相似，所以在选取样本时要考虑样本的代表性，是否能够有效地代表总体。在建立模型的时候不一定要建立在全量样本上，所有涉及到样本的选取：　　随机抽样: 　　随机抽样是在给定样本规模之后从总体中完全随机抽取，每种类型的样本个体是与总体比例一样的。例如，某银行有100万个信用卡账

2017-03-25 17:29:38 3228

原创 Hdfs之SecondaryNameNode

概述　　启动集群Hdfs（start-dfs.sh）之后，查看进程（jps）会在master节点上看到，除了namenode进程之外还会有个secondarynamenode进程，从字面上看，很多人会把他当做namenode的“二把手”，当做namenode的备份进程之类的，但实际上他与namenode担任的是不同的角色。主要工作内容　　要说secondarynamnode的工作内容，需要回顾一下他

2017-03-10 14:42:22 849

原创 HDFS之NameNode

权利主服务器管理文件的命名空间　　凡是对文件系统命名或其他属性的修改信息都会保存到这里。　　比如，有个名为Eva的文件放在目录/usr下，现在要将他改名为zuo，移动到/usr/local目录下，这些修改日志都会被 NameNode的edit log文件记录。存放HDFS的元数据信息　　即文件系统的目录树以及追踪集群文件，简单来说就是NameNode不实际存储数据，但是他知道数据的存放位置

2017-03-08 10:05:23 2161

原创 HDFS分布式存储及特点

介绍　　HDFS是Hadoop应用程序使用的主要分布式存储，主要被设计在商用硬件上运行，也就是说，他必须满足低成本、高容错、高吞吐的特性才能在众多的分布式存储系统中脱颖而出。特点低成本　　HDFS实现的分布式存储实际是由数百个甚至数千个服务器提供的（目前Hadoop已经实现了两千多个节点的部署），这比单独使用一台大型服务器在遇到故障时的成本付出要少的多，现在如果某个服务器发生

2017-03-03 20:09:22 8049

原创 Hadoop介绍

这是我自己在学习大数据时的笔记总结，适合可爱的小白们作为扫盲了解，所以会出现很多非专业用语，希望各位专业人士暂时忘掉自己的强迫症，如实在不能忍受，那就闭着眼睛看吧。可能出现一些错误的认识，还希望大家能够及时指出来，共同进步。什么是Hadoop　　Hadoop是Apache软件基金会发行的可靠的、可扩展的、分布式计算的开源软件。　　Apache Hadoop软件库是一个允许大规模数据集在

2017-03-03 19:22:26 419

原创欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-03-03 18:53:43 180

prettyEva的博客