自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (1)
  • 收藏
  • 关注

原创 Spark总结

RDD(Resilient Distributed Datasets,弹性分布式数据集),是Spark最为核心的概念。 RDD的特点: 是一个分区的只读记录的集合; 一个具有容错机制的特殊集; 只能通过在稳定的存储器或其他RDD上的确定性操作(转换)来创建; 可以分布在集群的节点上,以函数式操作集合的方式,进行各种并行操作。 Partitioner决定RDD的分区方式Partitioner决定...

2018-12-05 00:08:15 161 1

原创 lightgbm

lightGBM的改进 1.直方图差加速:直方图算法的基本思想是先把连续的浮点特征值离散化成k个整数,同时构造一个宽度为k的直方图。在遍历数据的时候,根据离散化后的值作为索引在直方图中累积统计量,当遍历一次数据后,直方图累积了需要的统计量,然后根据直方图的离散值,遍历寻找最优的分割点。内存消耗降低,计算上的代价也大幅降低。 2.leaf-wise:每次从当前所有叶子中,找到分裂增益最大的一个叶子,...

2018-12-03 23:18:09 531

原创 二叉树

基本数据结构 typedef struct BiNode{ char data; struct BiNode *lchild ,*rchild; }BiNode,*BiTree; 二叉树的创建 //按照先序序列输入构建一棵二叉树 void Create(BiTree &T) { char ch; scanf("%c",&ch); if( '#' == ch ...

2018-12-01 21:41:09 125

原创 排序算法

文章目录1. 冒泡排序2. 选择排序3. 插入排序4. 希尔排序5. 归并排序6. 快速排序7. 堆排序8. 基数排序 1. 冒泡排序 # coding=utf-8 '''冒泡排序 排序过程: 沉淀法(比大,大的下沉):(visualgo上面的动态图就是沉淀法) 第 1 次从 头 开始比较前后两个数字的大小,最大的数沉淀在第 n 位置,比较n-1次; 第 2...

2018-12-01 17:27:20 156

原创 HOME CREDIT DEFAULT RISK COMPETITION

# HOME CREDIT DEFAULT RISK COMPETITION # Update 16/06/2018: import numpy as np import pandas as pd import gc import time from contextlib import contextmanager from lightgbm import LGBMClassifier from...

2018-11-17 17:48:01 613

校园数据分析赛源码

2018年校园数据分析赛前10名源码,涉及数据处理和模型调优等环节

2018-10-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除