Cherzhoucheer的博客

道阻且长 行则将至

LightGBM参数

LightGBM的优势。 更快的训练速度和更高的效率: LightGBM使用基于直方图的算法。例如,它将连续的特征值分桶(buckets)装进离散的箱子(bins),这是的训练过程中变得更快。 更低的内存占用:使用离散的箱子(bins)保存并替换连续值导致更少的内存占用。 ...

2019-01-17 00:34:11

阅读数 158

评论数 0

表的复用

以前很少用到这种结构,mark一下。 题目描述: 对所有员工的当前(to_date='9999-01-01')薪水按照salary进行按照1-N的排名,相同salary并列且按照emp_no升序排列 CREATE TABLE `salaries` ( `emp_no` int(11)...

2017-09-30 21:00:45

阅读数 509

评论数 0

《机器学习实战》之Adaboost

首先抛出问题,如何解决不均衡分类问题?这个问题我觉得应该从原理上和实际调参两个方面来回答,原理部分从adboost入手,实践部分则是sklearn相关参数(这个后面遇到了再补充)。 什么是boosting?通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类性能。那么问题又...

2017-09-30 16:57:37

阅读数 833

评论数 0

LeetCode500. Keyboard Row

Given a List of words, return the words that can be typed using letters of alphabet on only one row's of American keyboard like the image below. ...

2017-08-01 21:19:29

阅读数 389

评论数 0

LeetCode561. Array Partition I

Given an array of 2n integers, your task is to group these integers into n pairs of integer, say (a1, b1), (a2, b2), ..., (an, bn) which makes sum of...

2017-07-31 20:52:41

阅读数 301

评论数 0

LeetCode617. Merge Two Binary Trees

Given two binary trees and imagine that when you put one of them to cover the other, some nodes of the two trees are overlapped while the others are ...

2017-07-31 19:52:09

阅读数 313

评论数 0

LeetCode566. Reshape the Matrix

【题目】:实现矩阵reshape操作,当reshape满足数组维度时返回结果,否则返回原数组即可。 【示例】: Input: nums = [[1,2],[3,4]], r = 1, c = 4 Output: [[1,2,3,4]] Input: nums = [[1,2], [3,4]], ...

2017-05-14 22:38:15

阅读数 462

评论数 0

Sklearn-preprocessing.PolynomialFeatures

在建模过程中多次用到过sklearn.preprocessing.PolynomialFeatures,可以理解为专门生成多项式特征,并且多项式包含的是相互影响的特征集,比如:一个输入样本是2维的。形式如[a,b] ,则二阶多项式的特征集如下[1,a,b,a^2,ab,b^2]。 官网文档:h...

2017-05-05 20:48:51

阅读数 3264

评论数 0

数据分析与数据挖掘面试题收集

比赛怎么做的(先说解决的问题,属于回归还是二分类问题,KS曲线是什么含义,能优化吗(用AUC代替)) KS值:用真正率和假正率的累计值分别做为纵坐标就得到两个曲线,这就是K-S曲线。 GBDT与XGBoost的区别(知乎wepon大神:https://www.zhihu...

2017-04-07 00:53:00

阅读数 3696

评论数 0

使用python访问mysql数据库/取数据/写入文件

总结一下最近使用mysql数据库的代码:进行访问数据库/表——取出表中指定列取值为特定值的所有样本——写入文件   #-*- coding;utf-8 -*- # import sys # reload(sys) #sys.setdefaultencoding( "utf-8"...

2017-03-10 16:57:53

阅读数 3035

评论数 0

Sklearn-preprocessing.scale/StandardScaler/MinMaxScaler

标准化 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。这样去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是0-1标准化和Z标准化 0-1标准化(0-1 normalization)   也叫离差...

2017-02-20 12:11:30

阅读数 7348

评论数 0

Sklearn-PolynomialFeatures()

sklearn类: classsklearn.preprocessing.PolynomialFeatures(degree=2,interaction_only=False, include_bias=True) 专门产生多项式的,并且多项式包含的是相互影响的特征集。比如:一个输入样本是2维...

2017-02-19 22:33:05

阅读数 951

评论数 2

sklearn.metrics中的评估方法介绍(accuracy_score, recall_score, roc_curve, roc_auc_score, confusion_matrix)

accuracy_score 分类准确率分数是指所有分类正确的百分比。分类准确率这一衡量分类器的标准比较容易理解,但是它不能告诉你响应值的潜在分布,并且它也不能告诉你分类器犯错的类型。 形式: sklearn.metrics.accuracy_score(y_true, y_pred, nor...

2017-02-19 21:15:16

阅读数 32172

评论数 0

理解if __name__ == "__main__":

__name__ 是当前模块名,当模块被直接运行时模块名为 __main__ 。这句话的意思就是,当模块被直接运行时,以下代码块将被运行,当模块是被导入时,代码块不被运行。  示例: # file one.py def func(): print("func() in ...

2017-02-17 21:43:20

阅读数 501

评论数 0

dateutil模块

dateutil模块主要有两个函数,parser和rrule。parser是根据字符串解析成datetime,而rrule是则是根据定义的规则来生成datetime。   parser parser是根据字符串解析成datetime,字符串可以很随意,可以用时间日期的英文单词,可以用...

2017-02-15 21:46:43

阅读数 3684

评论数 0

time和datetime模块

time模块 1)time模块中时间表现的格式主要有三种:   a、timestamp时间戳,时间戳表示的是从1970年1月1日00:00:00开始按秒计算的偏移量   b、struct_time时间元组,共有九个元素组。   c、formattime 格式化时间,已格式化的结构使时间更具可读性...

2017-02-15 21:32:55

阅读数 589

评论数 0

每天一点SQL(持续更新)

1.原始数据 createdatabase practice; USE practice; CREATETABLE STUDENT (SNOVARCHAR(3) NOT NULL, SNAMEVARCHAR(4) NOT NULL, SSEXVARCHAR(2) NOT NULL, SBIR...

2017-02-14 19:57:50

阅读数 1122

评论数 0

SQL面试题练习-实现pivot行列转换

题目:实现把表t1的数据变成表t2的形式           t1 year month amount 1991 1 1.1 1991 2 1.2 ...

2017-02-13 20:56:23

阅读数 1167

评论数 0

用Python实现的数据结构与算法-队列

1.概述 队列(Queue)是一种先进先出(FIFO)的线性数据结构,插入操作在队尾(rear)进行,删除操作在队首(front)进行。   2.ADT 队列ADT(抽象数据类型)一般提供以下接口:   Queue():创建队列 enqueue(item):向队尾插入项 deque...

2017-02-13 12:37:29

阅读数 1520

评论数 0

用python学习数据结构与算法-堆栈

堆栈 堆栈(Stack)是一种后进先出(LIFO)的线性数据结构,对堆栈的插入和删除操作都只能在栈顶(top)进行。栈和队列主要用于计算过程中保存临时数据。 堆栈ADT(抽象数据类型)一般提供以下接口: Stack() 创建堆栈 push(item) 向栈顶插入项 pop() 返回栈顶的项,并从...

2017-02-13 11:11:15

阅读数 738

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭