自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (1)
  • 收藏
  • 关注

原创 Spark总结

RDD(Resilient Distributed Datasets,弹性分布式数据集),是Spark最为核心的概念。RDD的特点:是一个分区的只读记录的集合;一个具有容错机制的特殊集;只能通过在稳定的存储器或其他RDD上的确定性操作(转换)来创建;可以分布在集群的节点上,以函数式操作集合的方式,进行各种并行操作。Partitioner决定RDD的分区方式Partitioner决定...

2018-12-05 00:08:15 160 1

原创 lightgbm

lightGBM的改进1.直方图差加速:直方图算法的基本思想是先把连续的浮点特征值离散化成k个整数,同时构造一个宽度为k的直方图。在遍历数据的时候,根据离散化后的值作为索引在直方图中累积统计量,当遍历一次数据后,直方图累积了需要的统计量,然后根据直方图的离散值,遍历寻找最优的分割点。内存消耗降低,计算上的代价也大幅降低。2.leaf-wise:每次从当前所有叶子中,找到分裂增益最大的一个叶子,...

2018-12-03 23:18:09 527

原创 二叉树

基本数据结构typedef struct BiNode{char data;struct BiNode *lchild ,*rchild;}BiNode,*BiTree;二叉树的创建//按照先序序列输入构建一棵二叉树void Create(BiTree &T){ char ch; scanf("%c",&ch); if( '#' == ch ...

2018-12-01 21:41:09 122

原创 排序算法

文章目录1. 冒泡排序2. 选择排序3. 插入排序4. 希尔排序5. 归并排序6. 快速排序7. 堆排序8. 基数排序1. 冒泡排序# coding=utf-8'''冒泡排序排序过程: 沉淀法(比大,大的下沉):(visualgo上面的动态图就是沉淀法) 第 1 次从 头 开始比较前后两个数字的大小,最大的数沉淀在第 n 位置,比较n-1次; 第 2...

2018-12-01 17:27:20 154

原创 HOME CREDIT DEFAULT RISK COMPETITION

# HOME CREDIT DEFAULT RISK COMPETITION# Update 16/06/2018:import numpy as npimport pandas as pdimport gcimport timefrom contextlib import contextmanagerfrom lightgbm import LGBMClassifierfrom...

2018-11-17 17:48:01 606

校园数据分析赛源码

2018年校园数据分析赛前10名源码,涉及数据处理和模型调优等环节

2018-10-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除