- 博客(22)
- 收藏
- 关注
原创 Datacastle 微额贷款人品预测大赛总结
感谢datacastle和现金巴士提供了这样好的大数据竞赛平台!主要从以下几个方面总结:(0)数据预处理: 缺失值:删除缺失值大于194的样例 根据缺失值个数分段构造离散特征 数值型变量:log变换(1)特征工程 (1)排序特征:将数值型数据排序,将其rank作为新的特征 (2)连续特征离散化:等量,或者等间距 (
2016-04-02 23:00:13 2867
翻译 Kaggle中常用融合技术
Kaggle中常用融合技术:原文链接:http://mlwave.com/kaggle-ensembling-guide/模型融合技术可以提高一系列机器学习任务的准确率。在这篇文章中我将会分享大家一些在kaggle比赛中常用的融合方法。 第一部分我们介绍利用提交的文件创建融合模型。第二部分我们通过堆栈泛化创建容和模型。我回答了为什么融合能够减少泛化误差。最后我列举了不同的融合方
2016-02-29 20:46:03 6381
翻译 关于特征工程
什么是特征工程,怎么做特征工程,怎么做好特征工程特征工程是一个包含内容很多的主题,也被认为是成功应用机器学习的一个很重要的环节。为了写这篇文章,我深入和广泛的阅读了相关材料,并且对他们进行了整合。这篇文章主要说明了以下问题:什么是特征工程?特征工程解决了什么问题?为什么特征工程对机器学习很重要?如何进行特征工程?哪些团队对这个问题研究的比较好,以及在哪里你能学到更多相关知识。如果你只阅
2016-02-29 15:09:06 3931
原创 机器学习项目中重要问题
1.数据预处理:特征选择->降维:剔除对预测结果影响小的因素 升维(值离散化,特征组合)->提高特征复杂度,增强模型拟合能力(复杂模型:简单特征 简单模型:复杂特征) 样本选择->剔除离群点2.模型选择:根据特征的特点选择合适的模型(多线性特征,选择非线性模型;多非线性特征,选择线性模型;)根据计算能力选择模型(计算能力有限:选择LR等较简单的线性模型)
2016-02-03 16:27:21 622
原创 剑指offer:字符串排列
void permutation(*pstr){ if(pstr==null) return; permutation2(pstr,pstr);;}void permutation2(*pstr,*pstr){ if(*pbegin=='\0'){ printf("%s\n",pstr); } else{ f
2015-08-05 11:44:34 388
原创 剑指offer:复杂链表复制
1.p A->B->C->D->E=>A->A‘->B->B'->C->C'->D->D'->E->E'2.找到A',B',C',D',E'的随机指针指向3.将复制后的链表A' B' C' D' E'拆出来public class Solution { public RandomListNode Clone(RandomListNode pHead) {
2015-07-27 19:25:13 405
原创 python进阶四:类的继承
python继承:(1)总是从某个类继承 (2)要用父类super方法进行初始化。继承一个类 :Teacher继承自Person类 正确调用父类的__init__方法class Person(object): def __init__(self, name, gender): self.name = na
2015-07-20 15:23:26 680
原创 Python进阶三:面向对象基础
初始化实例属性:输入关键字信息attr=‘attr1’可以用kw.iteritems()class Person(object): def __init__(self,name,gender,birth,**kw): self.name=name self.gender=gender self.birth=birth
2015-07-15 15:18:43 914
原创 Python进阶二:模块和包
同名模块:放入不同包中 import package1.file1;如何区分包和普通目录:包下面有一个__init__.py文件导入模块:from package import file1 或者 import package.filefrom os import pathprint path.isdir(r'/data/webroot/resource/python')print
2015-07-09 21:43:16 555
原创 python进阶一:高阶函数
1、函数式编程: python特点:不是纯函数式编程(允许变量存在); 支持高阶函数(可以传入函数作为变量); 支持闭包(可以返回函数); 有限度的支持匿名函数; 高阶函数:变量可以指
2015-07-08 15:51:42 5970
转载 模型选择与特征选择
1 问题 模型选择问题:对于一个学习问题,可以有多种模型选择。比如要拟合一组样本点,可以使用线性回归,也可以用多项式回归。那么使用哪种模型好呢(能够在偏差和方差之间达到平衡最优)? 还有一类参数选择问题:如果我们想使用带权值的回归模型,那么怎么选择权重w公式里的参数?形式化定义:假设可选的模型集合是,比如我们想分类,那么SVM、logistic回归、神经网络
2015-07-01 10:36:08 7731
原创 mysql总结
一、数据库层次操作:创建数据库:CREATE DATABASE [IF NOT EXISTS] db_name CHARACTER SET utf8;删除数据库:DROP DATABASE[IF EXISTS] db_name;修改数据库编码:ALTER DATABASE db_name CHARACTER SET utf8;显示数据库是否创建:SHOW DATAB
2015-06-30 23:45:52 365
原创 主成分分析算法
1.数据预处理:均值中心化,方差归一化 2.计算各变量协方差矩阵 3:计算特征值,特征向量 4:将特征值从大到小排序,选前k大的,其对应的特征向量组成线性变换矩阵。 5:将原数据以特征变换矩阵进行线性变换,得到k维数据 k值选择:方差损失小于一定阈值 理论基础:方差最大化,均方误差最小化
2015-06-30 12:27:27 711
原创 数据预处理
数据清洗(1)缺失值(忽略,中心趋势度量,该类中心趋势度量,人工填写,使用全局变量填充 ,使用最可能的值填充)(2)离群点:数据光滑(分箱 (中位数光滑,极值光滑,均值光滑),回归,离群点检测:聚类)数据集成(1)实体识别(2)冗余相关分析(标称数据 :卡方检验 数值型:协方差,相关系数)(3)元组重复(4)数据值冲突检测处理数据归约(1)维归约(小波分析,P
2015-05-28 22:55:07 629
原创 LeetCode:Median of two sorted array
求两个排序数组的中位数:这是一个O(log(n+m))的算法。将求中位数转化为求两个数组中第(m+n)/2大的数,进一步扩展为求第k大的数。首先考虑三种边界情况:两个数组中有一个数组长度为0,则返回另一个数组的中位数即可;若k=1,则只需输出两个数组各自最小值中较小的那一个。然后,要求第k大的数,先假设两个数组各取前k/2,如果,第一个数组中第k/2个数字小于第二个数组中第k/2个数字,则
2015-05-22 20:03:31 507
原创 决策树分类算法小结
决策树主要有ID3,C4.5,CART等形式。ID3选取信息增益的属性递归进行分类,C4.5改进为使用信息增益率来选取分类属性。CART是Classfication and Regression Tree的缩写。表明CART不仅可以进行分类,也可以进行回归。其中使用基尼系数选取分类属性。以下主要介绍ID3和CART算法。ID3算法:信息熵: H(X)=-sigma(对每一个x)(plogp
2015-05-11 19:28:45 2719
原创 LeetCode:Generating Parenthesis
public class Solution{ public ArrayList StackSeq(String a){ ArrayList list=new ArrayList(); StringBuffer str = new StringBuffer(); if(a.length==0)return list; recursive(
2015-05-10 22:54:43 394
原创 多重假设检验校正为什么有效?
1.零假设和p值 零假设:在随机条件下的分布。 p值:在零假设下,观测到某一特定实验结果的概率称为p值。2.为什么高通量实验中p值存在问题? p值只对一次实验结果有效,如果是多重假设检验需要进行校正。3.多重假设检验校正。 邦弗朗尼校正:p值小于显著性阈值/n(在零假设中至少有一个的得分会大于观测值的概率为显著性阈值,即我们有1-显著性阈值的概率可以确定在零假设中不会出现比
2015-05-06 10:03:13 10984
原创 支持向量机概述
1.原理: 最大间隔分类器: min 1/2||w||^2 yi(wxi+b)>=1 写出拉格朗日函数:Lp 不等式约束利用KKT条件。 线性可分:直接最大化间隔 线性不可分:加入松弛变量 约束条件放宽 yi(wxi+b)>=1-ei 目标函数加入惩罚项(需要设置参数C)
2015-05-04 21:13:31 473
原创 贝叶斯文本分类器原理and技术要点
一 原理:贝叶斯公式:P(Y|X)=P(X,Y)/P(X)=P(X|Y)*P(Y)/P(X)贝叶斯分类:输入 X=(X1,X2...,Xn) 输出 P(Y1|X)...P(Yk|X)中最大的一个作为分类结果。 假设:输入各分量相互独立即P(Y1|X)=P(X|Y1)*P(Y1)/P(X)=P(X1|Y1)*...*P(Xn|Y1)*P(Y1
2015-04-26 20:48:26 522
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人