- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 Spark总结
RDD(Resilient Distributed Datasets,弹性分布式数据集),是Spark最为核心的概念。RDD的特点:是一个分区的只读记录的集合;一个具有容错机制的特殊集;只能通过在稳定的存储器或其他RDD上的确定性操作(转换)来创建;可以分布在集群的节点上,以函数式操作集合的方式,进行各种并行操作。Partitioner决定RDD的分区方式Partitioner决定...
2018-12-05 00:08:15 160 1
原创 lightgbm
lightGBM的改进1.直方图差加速:直方图算法的基本思想是先把连续的浮点特征值离散化成k个整数,同时构造一个宽度为k的直方图。在遍历数据的时候,根据离散化后的值作为索引在直方图中累积统计量,当遍历一次数据后,直方图累积了需要的统计量,然后根据直方图的离散值,遍历寻找最优的分割点。内存消耗降低,计算上的代价也大幅降低。2.leaf-wise:每次从当前所有叶子中,找到分裂增益最大的一个叶子,...
2018-12-03 23:18:09 527
原创 二叉树
基本数据结构typedef struct BiNode{char data;struct BiNode *lchild ,*rchild;}BiNode,*BiTree;二叉树的创建//按照先序序列输入构建一棵二叉树void Create(BiTree &T){ char ch; scanf("%c",&ch); if( '#' == ch ...
2018-12-01 21:41:09 122
原创 排序算法
文章目录1. 冒泡排序2. 选择排序3. 插入排序4. 希尔排序5. 归并排序6. 快速排序7. 堆排序8. 基数排序1. 冒泡排序# coding=utf-8'''冒泡排序排序过程: 沉淀法(比大,大的下沉):(visualgo上面的动态图就是沉淀法) 第 1 次从 头 开始比较前后两个数字的大小,最大的数沉淀在第 n 位置,比较n-1次; 第 2...
2018-12-01 17:27:20 154
原创 HOME CREDIT DEFAULT RISK COMPETITION
# HOME CREDIT DEFAULT RISK COMPETITION# Update 16/06/2018:import numpy as npimport pandas as pdimport gcimport timefrom contextlib import contextmanagerfrom lightgbm import LGBMClassifierfrom...
2018-11-17 17:48:01 610
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人