排序:
默认
按更新时间
按访问量

Datacastle 微额贷款人品预测大赛总结

感谢datacastle和现金巴士提供了这样好的大数据竞赛平台! 主要从以下几个方面总结: (0)数据预处理:   缺失值:删除缺失值大于194的样例  根据缺失值个数分段构造离散特征  数值型变量:log变换 (1)特征工程           (1)排序特征:将数值型数据排序,将其rank...

2016-04-02 23:00:13

阅读数:2106

评论数:0

Kaggle中常用融合技术

Kaggle中常用融合技术: 原文链接:http://mlwave.com/kaggle-ensembling-guide/ 模型融合技术可以提高一系列机器学习任务的准确率。在这篇文章中我将会分享大家一些在kaggle比赛中常用的融合方法。   第一部分我们介绍利用提交的文件创建融合模...

2016-02-29 20:46:03

阅读数:4856

评论数:0

关于特征工程

什么是特征工程,怎么做特征工程,怎么做好特征工程 特征工程是一个包含内容很多的主题,也被认为是成功应用机器学习的一个很重要的环节。 为了写这篇文章,我深入和广泛的阅读了相关材料,并且对他们进行了整合。 这篇文章主要说明了以下问题:什么是特征工程?特征工程解决了什么问题?为什么特征工程对机器学...

2016-02-29 15:09:06

阅读数:3070

评论数:0

机器学习项目中重要问题

1.数据预处理:特征选择->降维:剔除对预测结果影响小的因素       升维(值离散化,特征组合)->提高特征复杂度,增强模型拟合能力(复杂模型:简单特征   简单模型:复杂特征)            样本选择->剔除离群点 2.模型选择:根据特征的特点选择合适的模型(多...

2016-02-03 16:27:21

阅读数:376

评论数:0

剑指offer:字符串排列

void permutation(*pstr){ if(pstr==null) return; permutation2(pstr,pstr);; } void permutation2(*pstr,*pstr){ if(*pbegin=='\0'){ ...

2015-08-05 11:44:34

阅读数:210

评论数:0

剑指offer:复杂链表复制

1.p  A->B->C->D->E=>A->A‘->B->B'->C->C'->D->D'->E->E' 2.找到A',B',C',D',E'的随机指针指向 3.将复制后的链表A' B' C' D' E'拆出...

2015-07-27 19:25:13

阅读数:231

评论数:0

python进阶四:类的继承

python继承:(1)总是从某个类继承                         (2)要用父类super方法进行初始化。 继承一个类 :Teacher继承自Person类     正确调用父类的__init__方法class Person(object): def _...

2015-07-20 15:23:26

阅读数:387

评论数:0

Python进阶三:面向对象基础

初始化实例属性:输入关键字信息attr=‘attr1’可以用kw.iteritems() class Person(object): def __init__(self,name,gender,birth,**kw): self.name=name ...

2015-07-15 15:18:43

阅读数:770

评论数:0

Python进阶二:模块和包

同名模块:放入不同包中  import package1.file1; 如何区分包和普通目录:包下面有一个__init__.py文件 导入模块:from package import file1  或者 import package.filefrom os import path print...

2015-07-09 21:43:16

阅读数:411

评论数:0

python进阶一:高阶函数

1、函数式编程:       python特点:不是纯函数式编程(允许变量存在);                               支持高阶函数(可以传入函数作为变量);                               支持闭包(可以返回函数);          ...

2015-07-08 15:51:42

阅读数:4883

评论数:0

模型选择与特征选择

1 问题      模型选择问题:对于一个学习问题,可以有多种模型选择。比如要拟合一组样本点,可以使用线性回归,也可以用多项式回归。那么使用哪种模型好呢(能够在偏差和方差之间达到平衡最优)?      还有一类参数选择问题:如果我们想使用带权值的回归模型,那么怎么选择权重w公式里的参数...

2015-07-01 10:36:08

阅读数:6689

评论数:0

mysql总结

一、数据库层次操作: 创建数据库: CREATE DATABASE [IF NOT EXISTS] db_name CHARACTER SET utf8; 删除数据库: DROP DATABASE[IF EXISTS] db_name; 修改数据库编码: ALTER DATABASE db_nam...

2015-06-30 23:45:52

阅读数:249

评论数:0

主成分分析算法

1.数据预处理:均值中心化,方差归一化 2.计算各变量协方差矩阵 3:计算特征值,特征向量 4:将特征值从大到小排序,选前k大的,其对应的特征向量组成线性变换矩阵。 5:将原数据以特征变换矩阵进行线性变换,得到k维数据 k值选择:方差损失小于一定阈值 理论基础:方差最大化,均方误差最小化

2015-06-30 12:27:27

阅读数:387

评论数:0

数据预处理

数据清洗 (1)缺失值(忽略,中心趋势度量,该类中心趋势度量,人工填写,使用全局变量填充 ,使用最可能的值填充) (2)离群点:数据光滑(分箱 (中位数光滑,极值光滑,均值光滑),回归,离群点检测:聚类) 数据集成 (1)实体识别 (2)冗余相关分析(标称数据 :卡方检验  数值型:协方...

2015-05-28 22:55:07

阅读数:413

评论数:0

感知器,线性回归,logistic回归

1.感知器算法 2.线性回归算法(梯度下降,正规方程组) 3.logistic回归和最大熵原理

2015-05-27 09:54:31

阅读数:1773

评论数:0

LeetCode:Median of two sorted array

求两个排序数组的中位数:这是一个O(log(n+m))的算法。将求中位数转化为求两个数组中第(m+n)/2大的数,进一步扩展为求第k大的数。 首先考虑三种边界情况:两个数组中有一个数组长度为0,则返回另一个数组的中位数即可;若k=1,则只需输出两个数组各自最小值中较小的那一个。 然后,要求第k大的...

2015-05-22 20:03:31

阅读数:365

评论数:0

决策树分类算法小结

决策树主要有ID3,C4.5,CART等形式。ID3选取信息增益的属性递归进行分类,C4.5改进为使用信息增益率来选取分类属性。CART是Classfication and Regression Tree的缩写。表明CART不仅可以进行分类,也可以进行回归。其中使用基尼系数选取分类属性。以下主要介...

2015-05-11 19:28:45

阅读数:2120

评论数:0

LeetCode:Generating Parenthesis

public class Solution{ public ArrayList StackSeq(String a){ ArrayList list=new ArrayList(); StringBuffer str = new StringBuffer(); ...

2015-05-10 22:54:43

阅读数:267

评论数:0

EM算法浅谈

1.主要思想:        存在隐含变量。不能直接利用最大似然估计估计参数。        先随机生成参数,

2015-05-09 20:11:08

阅读数:491

评论数:0

多重假设检验校正为什么有效?

1.零假设和p值  零假设:在随机条件下的分布。  p值:在零假设下,观测到某一特定实验结果的概率称为p值。 2.为什么高通量实验中p值存在问题?  p值只对一次实验结果有效,如果是多重假设检验需要进行校正。 3.多重假设检验校正。  邦弗朗尼校正:p值小于显著性阈值/n(在零假设中至少有一个的得...

2015-05-06 10:03:13

阅读数:6792

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭