Trunksong-CSDN博客

原创 Spark总结

RDD(Resilient Distributed Datasets,弹性分布式数据集)，是Spark最为核心的概念。 RDD的特点：是一个分区的只读记录的集合；一个具有容错机制的特殊集；只能通过在稳定的存储器或其他RDD上的确定性操作（转换）来创建；可以分布在集群的节点上，以函数式操作集合的方式，进行各种并行操作。 Partitioner决定RDD的分区方式Partitioner决定...

2018-12-05 00:08:15 161 1

lightGBM的改进 1.直方图差加速:直方图算法的基本思想是先把连续的浮点特征值离散化成k个整数，同时构造一个宽度为k的直方图。在遍历数据的时候，根据离散化后的值作为索引在直方图中累积统计量，当遍历一次数据后，直方图累积了需要的统计量，然后根据直方图的离散值，遍历寻找最优的分割点。内存消耗降低，计算上的代价也大幅降低。 2.leaf-wise:每次从当前所有叶子中，找到分裂增益最大的一个叶子，...

2018-12-03 23:18:09 531

原创二叉树

基本数据结构 typedef struct BiNode{ char data; struct BiNode *lchild ,*rchild; }BiNode,*BiTree; 二叉树的创建 //按照先序序列输入构建一棵二叉树 void Create(BiTree &amp;T) { char ch; scanf("%c",&amp;ch); if( '#' == ch ...

2018-12-01 21:41:09 125

原创排序算法

文章目录1. 冒泡排序2. 选择排序3. 插入排序4. 希尔排序5. 归并排序6. 快速排序7. 堆排序8. 基数排序 1. 冒泡排序 # coding=utf-8 '''冒泡排序排序过程: 沉淀法(比大，大的下沉):(visualgo上面的动态图就是沉淀法) 第 1 次从头开始比较前后两个数字的大小，最大的数沉淀在第 n 位置，比较n-1次; 第 2...

2018-12-01 17:27:20 156

原创 HOME CREDIT DEFAULT RISK COMPETITION

# HOME CREDIT DEFAULT RISK COMPETITION # Update 16/06/2018: import numpy as np import pandas as pd import gc import time from contextlib import contextmanager from lightgbm import LGBMClassifier from...

2018-11-17 17:48:01 613

校园数据分析赛源码

2018年校园数据分析赛前10名源码，涉及数据处理和模型调优等环节

2018-10-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Trunksong的博客

原创 Spark总结

原创 lightgbm

原创二叉树

原创排序算法

原创 HOME CREDIT DEFAULT RISK COMPETITION

校园数据分析赛源码

空空如也

原创 Spark总结

原创 lightgbm

原创 二叉树

原创 排序算法

原创 HOME CREDIT DEFAULT RISK COMPETITION

校园数据分析赛源码

空空如也

原创二叉树

原创排序算法