- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 Spark总结
RDD(Resilient Distributed Datasets,弹性分布式数据集),是Spark最为核心的概念。 RDD的特点: 是一个分区的只读记录的集合; 一个具有容错机制的特殊集; 只能通过在稳定的存储器或其他RDD上的确定性操作(转换)来创建; 可以分布在集群的节点上,以函数式操作集合的方式,进行各种并行操作。 Partitioner决定RDD的分区方式Partitioner决定...
2018-12-05 00:08:15 161 1
原创 lightgbm
lightGBM的改进 1.直方图差加速:直方图算法的基本思想是先把连续的浮点特征值离散化成k个整数,同时构造一个宽度为k的直方图。在遍历数据的时候,根据离散化后的值作为索引在直方图中累积统计量,当遍历一次数据后,直方图累积了需要的统计量,然后根据直方图的离散值,遍历寻找最优的分割点。内存消耗降低,计算上的代价也大幅降低。 2.leaf-wise:每次从当前所有叶子中,找到分裂增益最大的一个叶子,...
2018-12-03 23:18:09 531
原创 二叉树
基本数据结构 typedef struct BiNode{ char data; struct BiNode *lchild ,*rchild; }BiNode,*BiTree; 二叉树的创建 //按照先序序列输入构建一棵二叉树 void Create(BiTree &T) { char ch; scanf("%c",&ch); if( '#' == ch ...
2018-12-01 21:41:09 125
原创 排序算法
文章目录1. 冒泡排序2. 选择排序3. 插入排序4. 希尔排序5. 归并排序6. 快速排序7. 堆排序8. 基数排序 1. 冒泡排序 # coding=utf-8 '''冒泡排序 排序过程: 沉淀法(比大,大的下沉):(visualgo上面的动态图就是沉淀法) 第 1 次从 头 开始比较前后两个数字的大小,最大的数沉淀在第 n 位置,比较n-1次; 第 2...
2018-12-01 17:27:20 156
原创 HOME CREDIT DEFAULT RISK COMPETITION
# HOME CREDIT DEFAULT RISK COMPETITION # Update 16/06/2018: import numpy as np import pandas as pd import gc import time from contextlib import contextmanager from lightgbm import LGBMClassifier from...
2018-11-17 17:48:01 613
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人