中行信用卡数据岗知识

  1. Spark有3种运行模式:独立集群运行模式、YARN运行模式、Mesos运行模式。

 

  1. 熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是 2.6bit
  2. secondarynamenode一般在另外一个节点上运行,需要与namenode一样多大小的内存,作用就是定期合并编辑日志与命名空间镜像,以防止编辑日志过大。

    但是该辅助namenode总会滞后于namenode

    A中的热备份专门指热备namenode

  3. 硬链接与软链接

  4. 注意在SQL中,默认的inner join/outer join 都会出现相同名字的列重复出现

  5. mapreduce实际的处理过程可以理解为Input->Map->Sort->Combine->Partition->Reduce->Output。

  6. YARN的基本组成结构,YARN主要由ResourceManager、NodeManager、ApplicationMasterContainer等几个组件构成    交互原理:(1)RM调度资源并在合适的NM节点上启动对应的AM。AM向RM注册,包含二者之间的握手信息、AM侦听端口,及后续进行AM管理和监控的URL。
    (2)RM接收AM注册信息,并反馈响应给AM,包含集群资源信息。
    (3)AM向RM发起资源分配请求,包含需要使用的Container个数,同时附带归属于本AM的Container信息。
    (4)AM向RM获取资源分配进度信息,并保持与RM之间的心跳。
    (5)RM根据资源调度策略,分配容器资源给AM。
    (6)AM根据RM反馈信息,指示对应NM完成Container的拉起。一个NM上可以启动多个Container。
    (7)在Container运行过程中,AM向NM获取Container的运行状态报告。
    (8)NM将Container的运行状态信息反馈给AM。

  7. 题中所述文本文件存在明显的数据倾斜问题,word1出现频次远大于其他单词,因此需要对word1在map阶段的输出key值进行构造,从而将word1均分给多个reduce计算。 
    注:如果只答出一般的wordcount步骤,没有考虑到数据倾斜问题,严格来说应不得分。 
    1.map阶段 
      map方法按行读取文件,每行文件按空格分隔为一个单词列表,依次读取每个单词. 
      若单词为word1,则map阶段的输出为<word1_randomInt(50),1>,即"word1_"加0-50 之间的随机整数。 其他单词直接输出<单词,1>。 
      注:只要答出map阶段对单词word1的输出key值进行构造,以达到将word1均分为多个不同的key输出的目的即可,具体方法可有所区别。 
    2.combine阶段 
      注:计算方法同reduce阶段,该步骤可省去,答出+1分。 
    3.reduce阶段 
      对同一key值得value进行累加,得出各个key值的出现次数。 
    4.计算最终结果。
     依次逐行读取reduce阶段输出目录中的所有文件: 
      a.若key不是形同"word1_XX",直接输出key和value,即得出对应单词的出现频次。 
      b.若key类似"word1_XX",对所有key的value值累加,即可得出word1的出现频次。

  8. 利用分类模型lr,gbdt,xgboodt,决策树等都可以。这里以lr为例子,需要数据为:客户基本信息,包括年龄,收入,性别等,客户征信信息,包括贷款,还款记录等,客户司法信息,包括是否有犯罪等。这些特效数值型与分类型均有。预处理需要缺失填补,异常值处理,归一化等,然后特征选择,基于熵或者iv,woe编译。最后拟合模型,常见模型评估用混淆矩阵,召回率,精确率,auc值等。

  9. 现在信用卡开展营销活动,持有我行信用卡客户推荐新户办卡,开卡成功后可获得积分奖励。规定每个客户最多可推荐两个新户且一个新户只能被推荐一次。但允许链接效应,即若客户A推荐了新户B,新户B推荐新户C,则客户C同时属于A和B的推荐列表。简单起见,只考虑以一个老客户A作起点推荐的情况。编程计算推荐新户数不小于n的客户列表

  10. 数据仓库是一种面对主题的,相对稳定的,集成的,反应历史变化的数据集合

  11. 数据仓库常用模型:范式建模,雪花模型,星形模型,事实星座模型

  12. 1. 决策树归纳是一种构建分类模型的非参数方法。换句话说,它不要求任何先验假设,不假定类和其他属性服从一定的概率分布 
    2. 找到最佳的决策树是NP完全问题。许多决策树算法都采取启发式的方法指导对假设空间的搜索。我们常用一种贪心的、自顶向下的递归划分策略建立决策树。 
    3. 已开发的构建决策树技术不需要昂贵的计算代价,即使训练集非常大,也可以快速建立模型。此外,决策树一旦建立,未知样本分类非常快,最坏情况下的时间复杂度是O(w),其中w是树的最大深度。 
    4. 决策树相对容易解释,特别是小型的决策树在很多简单的数据集上,决策树的准确率也可以与其他分类算法相媲美。 
    5. 决策树是学习离散值函数的典型代表。然而,它不能很好地推广到某些特定的布尔函数。 
    一个著名的例子是奇偶函数,当奇数(偶数)个布尔属性为真时其值为0(1)。对于这样的函数准确建模需要一棵具有2d+1−12d+1−1个结点的满决策树,其中d是布尔属性的个数。(每次利用属性划分后,子集合中值为0/1的比例仍然一样) 
    6. 决策树算法对于噪声的干扰具有相当好的鲁棒性,采用避免过拟合的方法之后尤其如此。 
    7. 冗余属性不会对决策树的准确率造成不利的影响,有效处理共线性一个数据如果在数据中它与另一个属性是强相关的,那么它是冗余的。在两个冗余的属性中,如果已经选择其中一个座位划分属性,则另一个将会被忽略。然而,如果数据集中含有很多无用的属性(即对分类任务没有用的属性),则某些无用属性可能在树的构造过程中偶然被选中,导致决策树过于庞大。通过在预处理阶段删除不相关属性,特征选择技术能够帮助提高决策树的准确率。
    8. 由于大多数的决策树算法都采用自顶向下的递归划分方法,因此沿着树向下,记录会越小。在叶结点,记录可能太少,对于叶结点代表的类,不能作出具有统计意义的判断,这就是所谓的数据碎片(data fragmentation)问题。解决该问题的一种可行的方法是,当样本数小于某个特定阈值时停止分裂。 
    9. 子树可能在决策树中重复多次,这使得决策树构建过程时间复杂度大,并且可能更难解释。由于大多数的决策树算法都采用分治划分策略,因此在属性空间的不同部分可以使用相同的测试条件,从而导致子树重复问题。 

  13. KNN算法的思想如下:就是在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现次数最多的那个分类,其算法的描述为:

    1)计算测试数据与各个训练数据之间的距离;

    2)按照距离的递增关系进行排序;

    3)选取距离最小的K个点;

    4)确定前K个点所在类别的出现频率;

    5)返回前K个点中出现频率最高的类别作为测试数据的预测分类。

    可以看出,测试与训练是同时的,严格意义上说,不同于其他的算法过程,knn没有训练过程,直接就是利用测试集进行投票预测。

  14. self在Python里不是关键字。self代表当前对象的地址。

    self能避免非限定调用造成的全局变量。

    self在定义时需要定义,但是在调用时会自动传入。

    self的名字并不是规定死的,但是最好还是按照约定是用self

    self总是指调用时的类的实例

  15. HDFS的Namenode的HA架构特点:

  16. ZKFC控制NameNode主备仲裁:NameNode主备仲裁,由ZKFC控制,ZKFC作为一个精简的仲裁代理,其利用zookeeper的分布式锁功能,实现主备仲裁,再通过命令通道,控制NameNode的主备状态。

  17. 2、采用共享存储同步日志。主用NameNode对外提供服务,同时对元数据的修改采用写日志的方式写入共享存储,同时修改内存中的元数据。备用NameNode周期读取共享存储中的日志,并生成新的元数据文件,持久化的硬盘,同时回传给主NameNode。

    3、采用隔离(fence)机制防止脑裂。共享存储fencing,确保只有一个NN可以写入edits。客户端fencing,确保只有一个NN可以响应客户端的请求。DataNode fencing,确保只有一个NN可以向DN下发命令,譬如删除块,复制块,等等。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值