数据挖掘
文章平均质量分 64
a_victory
这个作者很懒,什么都没留下…
展开
-
数据挖掘学习(三)
Kaggle的Titanic数据分析——————————————(学习使用方法,重在运用) 特征分析与选择 特征工程1 一般方法:1、 读取训练集和测试集为 DataFrame;2、 训练集数据(head查看)(配合字段含义)(info可以看到有缺失值的列) (describe,mean字段等查看具体数据数值)3、 数据清洗,(drop去除 PassengerId、Name、Ticket 字原创 2017-06-05 16:30:05 · 1242 阅读 · 0 评论 -
数据挖掘(pandas&xgboost)
类别特征处理1、利用pd.get_dummies方法将类别特征进行编码。使用get_dummies进行one-hot编码(查看时间字段的类型,如果不是datetime类型需要to_datetime转化)例如:下面代码实现对age字段的转化,其中convert_age为转化函数,将对应的age、sex、user_lv进行one-hot编码,并concat一起,dump保存。user['age'].ma原创 2017-06-02 10:32:43 · 3177 阅读 · 0 评论 -
数据挖掘学习(二)
1、train.csv 这里采用的数据集来自于Kaggle | Allstate Claims Severity比赛,这里的训练集如下所示,有116个离散特征(cat1-cat116),14个连续特征(cont1 -cont14)2、xgboost代码分析import numpy as np import pandas as pd import xgboost as xgb impor原创 2017-06-02 15:51:21 · 676 阅读 · 0 评论