中行信用卡数据岗知识

最新推荐文章于 2021-03-13 15:03:06 发布

刘哲123456

最新推荐文章于 2021-03-13 15:03:06 发布

阅读量298

点赞数

分类专栏：面试

本文链接：https://blog.csdn.net/weixin_41652275/article/details/88617079

版权

面试专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Spark有3种运行模式：独立集群运行模式、YARN运行模式、Mesos运行模式。

熵是为消除不确定性所需要获得的信息量，投掷均匀正六面体骰子的熵是 2.6bit
secondarynamenode一般在另外一个节点上运行，需要与namenode一样多大小的内存，作用就是定期合并编辑日志与命名空间镜像，以防止编辑日志过大。

但是该辅助namenode总会滞后于namenode

A中的热备份专门指热备namenode
硬链接与软链接
注意在SQL中，默认的inner join/outer join 都会出现相同名字的列重复出现
mapreduce实际的处理过程可以理解为Input->Map->Sort->Combine->Partition->Reduce->Output。
YARN的基本组成结构，YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等几个组件构成交互原理：（1）RM调度资源并在合适的NM节点上启动对应的AM。AM向RM注册，包含二者之间的握手信息、AM侦听端口，及后续进行AM管理和监控的URL。
（2）RM接收AM注册信息，并反馈响应给AM，包含集群资源信息。
（3）AM向RM发起资源分配请求，包含需要使用的Container个数，同时附带归属于本AM的Container信息。
（4）AM向RM获取资源分配进度信息，并保持与RM之间的心跳。
（5）RM根据资源调度策略，分配容器资源给AM。
（6）AM根据RM反馈信息，指示对应NM完成Container的拉起。一个NM上可以启动多个Container。
（7）在Container运行过程中，AM向NM获取Container的运行状态报告。
（8）NM将Container的运行状态信息反馈给AM。
题中所述文本文件存在明显的数据倾斜问题,word1出现频次远大于其他单词，因此需要对word1在map阶段的输出key值进行构造，从而将word1均分给多个reduce计算。
注:如果只答出一般的wordcount步骤，没有考虑到数据倾斜问题，严格来说应不得分。
1.map阶段
map方法按行读取文件，每行文件按空格分隔为一个单词列表，依次读取每个单词.
若单词为word1，则map阶段的输出为<word1_randomInt(50),1>,即"word1_"加0-50 之间的随机整数。其他单词直接输出<单词,1>。
注:只要答出map阶段对单词word1的输出key值进行构造，以达到将word1均分为多个不同的key输出的目的即可，具体方法可有所区别。
2.combine阶段
注：计算方法同reduce阶段，该步骤可省去，答出+1分。
3.reduce阶段
对同一key值得value进行累加，得出各个key值的出现次数。
4.计算最终结果。
依次逐行读取reduce阶段输出目录中的所有文件：
a.若key不是形同"word1_XX"，直接输出key和value，即得出对应单词的出现频次。
b.若key类似"word1_XX"，对所有key的value值累加，即可得出word1的出现频次。
利用分类模型lr，gbdt，xgboodt，决策树等都可以。这里以lr为例子，需要数据为:客户基本信息，包括年龄，收入，性别等，客户征信信息，包括贷款，还款记录等，客户司法信息，包括是否有犯罪等。这些特效数值型与分类型均有。预处理需要缺失填补，异常值处理，归一化等，然后特征选择，基于熵或者iv，woe编译。最后拟合模型，常见模型评估用混淆矩阵，召回率，精确率，auc值等。
现在信用卡开展营销活动，持有我行信用卡客户推荐新户办卡，开卡成功后可获得积分奖励。规定每个客户最多可推荐两个新户且一个新户只能被推荐一次。但允许链接效应，即若客户A推荐了新户B，新户B推荐新户C，则客户C同时属于A和B的推荐列表。简单起见，只考虑以一个老客户A作起点推荐的情况。编程计算推荐新户数不小于n的客户列表
数据仓库是一种面对主题的，相对稳定的，集成的，反应历史变化的数据集合
数据仓库常用模型：范式建模，雪花模型，星形模型，事实星座模型
1. 决策树归纳是一种构建分类模型的非参数方法。换句话说，它不要求任何先验假设，不假定类和其他属性服从一定的概率分布。
2. 找到最佳的决策树是NP完全问题。许多决策树算法都采取启发式的方法指导对假设空间的搜索。我们常用一种贪心的、自顶向下的递归划分策略建立决策树。
3. 已开发的构建决策树技术不需要昂贵的计算代价，即使训练集非常大，也可以快速建立模型。此外，决策树一旦建立，未知样本分类非常快，最坏情况下的时间复杂度是O(w)，其中w是树的最大深度。
4. 决策树相对容易解释，特别是小型的决策树。在很多简单的数据集上，决策树的准确率也可以与其他分类算法相媲美。
5. 决策树是学习离散值函数的典型代表。然而，它不能很好地推广到某些特定的布尔函数。
一个著名的例子是奇偶函数，当奇数（偶数）个布尔属性为真时其值为0（1）。对于这样的函数准确建模需要一棵具有2d+1−12d+1−1个结点的满决策树，其中d是布尔属性的个数。（每次利用属性划分后，子集合中值为0/1的比例仍然一样）
6. 决策树算法对于噪声的干扰具有相当好的鲁棒性，采用避免过拟合的方法之后尤其如此。
7. 冗余属性不会对决策树的准确率造成不利的影响，有效处理共线性。一个数据如果在数据中它与另一个属性是强相关的，那么它是冗余的。在两个冗余的属性中，如果已经选择其中一个座位划分属性，则另一个将会被忽略。然而，如果数据集中含有很多无用的属性（即对分类任务没有用的属性），则某些无用属性可能在树的构造过程中偶然被选中，导致决策树过于庞大。通过在预处理阶段删除不相关属性，特征选择技术能够帮助提高决策树的准确率。
8. 由于大多数的决策树算法都采用自顶向下的递归划分方法，因此沿着树向下，记录会越小。在叶结点，记录可能太少，对于叶结点代表的类，不能作出具有统计意义的判断，这就是所谓的数据碎片（data fragmentation）问题。解决该问题的一种可行的方法是，当样本数小于某个特定阈值时停止分裂。
9. 子树可能在决策树中重复多次，这使得决策树构建过程时间复杂度大，并且可能更难解释。由于大多数的决策树算法都采用分治划分策略，因此在属性空间的不同部分可以使用相同的测试条件，从而导致子树重复问题。
KNN算法的思想如下：就是在训练集中数据和标签已知的情况下，输入测试数据，将测试数据的特征与训练集中对应的特征进行相互比较，找到训练集中与之最为相似的前K个数据，则该测试数据对应的类别就是K个数据中出现次数最多的那个分类，其算法的描述为：

1）计算测试数据与各个训练数据之间的距离；

2）按照距离的递增关系进行排序；

3）选取距离最小的K个点；

4）确定前K个点所在类别的出现频率；

5）返回前K个点中出现频率最高的类别作为测试数据的预测分类。

可以看出，测试与训练是同时的，严格意义上说，不同于其他的算法过程，knn没有训练过程，直接就是利用测试集进行投票预测。
self在Python里不是关键字。self代表当前对象的地址。

self能避免非限定调用造成的全局变量。

self在定义时需要定义，但是在调用时会自动传入。

self的名字并不是规定死的，但是最好还是按照约定是用self

self总是指调用时的类的实例
HDFS的Namenode的HA架构特点：
ZKFC控制NameNode主备仲裁：NameNode主备仲裁，由ZKFC控制，ZKFC作为一个精简的仲裁代理，其利用zookeeper的分布式锁功能，实现主备仲裁，再通过命令通道，控制NameNode的主备状态。
2、采用共享存储同步日志。主用NameNode对外提供服务，同时对元数据的修改采用写日志的方式写入共享存储，同时修改内存中的元数据。备用NameNode周期读取共享存储中的日志，并生成新的元数据文件，持久化的硬盘，同时回传给主NameNode。

3、采用隔离（fence）机制防止脑裂。共享存储fencing，确保只有一个NN可以写入edits。客户端fencing，确保只有一个NN可以响应客户端的请求。DataNode fencing，确保只有一个NN可以向DN下发命令，譬如删除块，复制块，等等。

刘哲123456

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
中行信用卡数据岗知识

Spark有3种运行模式：独立集群运行模式、YARN运行模式、Mesos运行模式。熵是为消除不确定性所需要获得的信息量，投掷均匀正六面体骰子的熵是2.6bit secondarynamenode一般在另外一个节点上运行，需要与namenode一样多大小的内存，作用就是定期合并编辑日志与命名空间镜像，以防止编辑日志过大。但是该辅助namenode总会滞后于namenode...
复制链接

扫一扫