a353833082-CSDN博客

原创 Datacastle 微额贷款人品预测大赛总结

感谢datacastle和现金巴士提供了这样好的大数据竞赛平台！主要从以下几个方面总结：（0）数据预处理：缺失值：删除缺失值大于194的样例根据缺失值个数分段构造离散特征数值型变量：log变换（1）特征工程（1）排序特征：将数值型数据排序，将其rank作为新的特征（2）连续特征离散化：等量，或者等间距（

2016-04-02 23:00:13 2867

翻译 Kaggle中常用融合技术

Kaggle中常用融合技术：原文链接：http://mlwave.com/kaggle-ensembling-guide/模型融合技术可以提高一系列机器学习任务的准确率。在这篇文章中我将会分享大家一些在kaggle比赛中常用的融合方法。第一部分我们介绍利用提交的文件创建融合模型。第二部分我们通过堆栈泛化创建容和模型。我回答了为什么融合能够减少泛化误差。最后我列举了不同的融合方

2016-02-29 20:46:03 6381

翻译关于特征工程

什么是特征工程，怎么做特征工程，怎么做好特征工程特征工程是一个包含内容很多的主题，也被认为是成功应用机器学习的一个很重要的环节。为了写这篇文章，我深入和广泛的阅读了相关材料，并且对他们进行了整合。这篇文章主要说明了以下问题：什么是特征工程？特征工程解决了什么问题？为什么特征工程对机器学习很重要？如何进行特征工程？哪些团队对这个问题研究的比较好，以及在哪里你能学到更多相关知识。如果你只阅

2016-02-29 15:09:06 3931

原创机器学习项目中重要问题

1.数据预处理：特征选择->降维:剔除对预测结果影响小的因素升维（值离散化，特征组合）->提高特征复杂度，增强模型拟合能力（复杂模型：简单特征简单模型：复杂特征）样本选择->剔除离群点2.模型选择：根据特征的特点选择合适的模型（多线性特征，选择非线性模型；多非线性特征，选择线性模型；）根据计算能力选择模型（计算能力有限：选择LR等较简单的线性模型）

2016-02-03 16:27:21 622

原创剑指offer：字符串排列

void permutation(*pstr){ if(pstr==null) return; permutation2(pstr,pstr);;}void permutation2(*pstr,*pstr){ if(*pbegin=='\0'){ printf("%s\n",pstr); } else{ f

2015-08-05 11:44:34 388

原创剑指offer：复杂链表复制

1.p A->B->C->D->E=>A->A‘->B->B'->C->C'->D->D'->E->E'2.找到A',B',C',D',E'的随机指针指向3.将复制后的链表A' B' C' D' E'拆出来public class Solution { public RandomListNode Clone(RandomListNode pHead) {

2015-07-27 19:25:13 405

原创 python进阶四：类的继承

python继承：（1）总是从某个类继承（2）要用父类super方法进行初始化。继承一个类：Teacher继承自Person类正确调用父类的__init__方法class Person(object): def __init__(self, name, gender): self.name = na

2015-07-20 15:23:26 680

原创 Python进阶三：面向对象基础

初始化实例属性：输入关键字信息attr=‘attr1’可以用kw.iteritems()class Person(object): def __init__(self,name,gender,birth,**kw): self.name=name self.gender=gender self.birth=birth

2015-07-15 15:18:43 914

原创 Python进阶二：模块和包

同名模块：放入不同包中 import package1.file1;如何区分包和普通目录：包下面有一个__init__.py文件导入模块：from package import file1 或者 import package.filefrom os import pathprint path.isdir(r'/data/webroot/resource/python')print

2015-07-09 21:43:16 555

原创 python进阶一：高阶函数

1、函数式编程： python特点：不是纯函数式编程（允许变量存在）；支持高阶函数（可以传入函数作为变量）；支持闭包（可以返回函数）；有限度的支持匿名函数；高阶函数：变量可以指

2015-07-08 15:51:42 5970

转载模型选择与特征选择

1 问题模型选择问题：对于一个学习问题，可以有多种模型选择。比如要拟合一组样本点，可以使用线性回归，也可以用多项式回归。那么使用哪种模型好呢（能够在偏差和方差之间达到平衡最优）？还有一类参数选择问题：如果我们想使用带权值的回归模型，那么怎么选择权重w公式里的参数？形式化定义：假设可选的模型集合是，比如我们想分类，那么SVM、logistic回归、神经网络

2015-07-01 10:36:08 7731

原创 mysql总结

一、数据库层次操作：创建数据库：CREATE DATABASE [IF NOT EXISTS] db_name CHARACTER SET utf8;删除数据库：DROP DATABASE[IF EXISTS] db_name;修改数据库编码：ALTER DATABASE db_name CHARACTER SET utf8;显示数据库是否创建：SHOW DATAB

2015-06-30 23:45:52 365

原创主成分分析算法

1.数据预处理:均值中心化，方差归一化 2.计算各变量协方差矩阵 3:计算特征值，特征向量 4:将特征值从大到小排序，选前k大的，其对应的特征向量组成线性变换矩阵。 5:将原数据以特征变换矩阵进行线性变换，得到k维数据 k值选择:方差损失小于一定阈值理论基础:方差最大化，均方误差最小化

2015-06-30 12:27:27 711

原创数据预处理

数据清洗（1）缺失值（忽略，中心趋势度量，该类中心趋势度量，人工填写，使用全局变量填充，使用最可能的值填充）（2）离群点：数据光滑（分箱（中位数光滑，极值光滑，均值光滑），回归，离群点检测：聚类）数据集成（1）实体识别（2）冗余相关分析（标称数据：卡方检验数值型：协方差，相关系数）（3）元组重复（4）数据值冲突检测处理数据归约（1）维归约（小波分析，P

2015-05-28 22:55:07 629

原创感知器，线性回归，logistic回归

1.感知器算法2.线性回归算法（梯度下降，正规方程组）3.logistic回归和最大熵原理

2015-05-27 09:54:31 2608

原创 LeetCode：Median of two sorted array

求两个排序数组的中位数：这是一个O(log(n+m))的算法。将求中位数转化为求两个数组中第(m+n)/2大的数，进一步扩展为求第k大的数。首先考虑三种边界情况：两个数组中有一个数组长度为0，则返回另一个数组的中位数即可；若k=1，则只需输出两个数组各自最小值中较小的那一个。然后，要求第k大的数，先假设两个数组各取前k/2,如果，第一个数组中第k/2个数字小于第二个数组中第k/2个数字，则

2015-05-22 20:03:31 507

原创决策树分类算法小结

决策树主要有ID3，C4.5，CART等形式。ID3选取信息增益的属性递归进行分类，C4.5改进为使用信息增益率来选取分类属性。CART是Classfication and Regression Tree的缩写。表明CART不仅可以进行分类，也可以进行回归。其中使用基尼系数选取分类属性。以下主要介绍ID3和CART算法。ID3算法：信息熵： H(X)=-sigma（对每一个x）（plogp

2015-05-11 19:28:45 2719

原创 LeetCode：Generating Parenthesis

public class Solution{ public ArrayList StackSeq(String a){ ArrayList list=new ArrayList(); StringBuffer str = new StringBuffer(); if(a.length==0)return list; recursive(

2015-05-10 22:54:43 394

原创 EM算法浅谈

1.主要思想：存在隐含变量。不能直接利用最大似然估计估计参数。先随机生成参数，

2015-05-09 20:11:08 688

原创多重假设检验校正为什么有效？

1.零假设和p值零假设：在随机条件下的分布。 p值：在零假设下，观测到某一特定实验结果的概率称为p值。2.为什么高通量实验中p值存在问题？ p值只对一次实验结果有效，如果是多重假设检验需要进行校正。3.多重假设检验校正。邦弗朗尼校正：p值小于显著性阈值/n（在零假设中至少有一个的得分会大于观测值的概率为显著性阈值，即我们有1-显著性阈值的概率可以确定在零假设中不会出现比

2015-05-06 10:03:13 10984

原创支持向量机概述

1.原理：最大间隔分类器： min 1/2||w||^2 yi(wxi+b)>=1 写出拉格朗日函数：Lp 不等式约束利用KKT条件。线性可分：直接最大化间隔线性不可分：加入松弛变量约束条件放宽 yi(wxi+b)>=1-ei 目标函数加入惩罚项（需要设置参数C）

2015-05-04 21:13:31 473

原创贝叶斯文本分类器原理and技术要点

2015-04-26 20:48:26 522

a353833082的专栏