自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 特征工程

最近做比赛的一波操作,几乎没有显著效果,虽然在这个比赛没有效果,但是其他比赛可能用的上。先记录一下最近做的特征工程吧。这个可以接着血糖那篇博客。打开血糖预测博客。1.移除特征中的异常值# 移除异常值 exclude_unique = [] for c in data.columns: num_uniques = len(data[c].uniqu...

2018-01-27 22:36:28 1081

原创 sklearn的数据预处理

数据预处理概要sklearn是一个比较常用的机器学习库,其中的sklearn.preprocessing包含了常用的预处理函数,一般在kaggle等数据竞赛网站拿到数据的时候,首先要观察数据特征,分布等信息,然后进行数据预处理。数据预处理有利于计算机进行计算。原始数据存在的问题: 1. 存在缺失值 2. 存在异常点及噪声 3. 各个特征的取值范围比例不一 4

2018-01-23 00:56:42 645

原创 血糖预测回归问题

这篇博客是接上文的,现在就开始做特征工程了,上面都是做的一些模型的融合,cv的验证,既然已经有了这些基础,那么必须要做最重要的部分了,特征工程十分重要,可以说是比赛的最关键步骤。赛题的链接:点击打开链接1.引入相关的库,并读入数据。# coding:utf-8import pandas as pdimport numpy as npimport matplotlib.pyplot as pl

2018-01-16 12:40:37 4495 4

原创 kaggle竞赛的小结基于--House Prices: Advanced Regression Techniques(回归类问题)

前天报名了天池的天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测的比赛,今天的提交排名是180多名,但是总排名300+,还没有进行数据工程的工作,所以去kaggle找了这个有相似度的题。下面将我这两天看的一些特征工程方面的代码贴在下面,数据的预处理可以按照这个步骤,其中kaggle的链接kaggle的处理参考#!/usr/bin/python#coding:utf-8import p

2018-01-08 15:51:15 4467

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除