数据预处理
Lzj000lzj
这个作者很懒,什么都没留下…
展开
-
缺失值填充+类别特征处理(encode+dummy)+特征缩放+数据清洗
缺失值填充SimpleImputer(missing_values=nan, strategy=’mean’, fill_value=None, verbose=0, copy=True)1. missing_values:number,string,nan2. strategy:mean,median,most_frequent,constant3. fill_value:constan...原创 2019-05-27 10:56:01 · 1546 阅读 · 1 评论 -
特征工程(PPT)
数据决定上限,模型逼近上限类别特征类别特征的特点:当类别基数较大时在处理后会产生非常稀疏的特征,难以处理缺失值。onehot encodingonehot之前要去掉NAN值label encoding对非线性树算法有用不增加维度count encoding将类别名替换为这一类别出现的次数对离群点很敏感可以尝试加入 log平滑可能会引入共线性LabelCoun...原创 2019-07-13 16:03:34 · 978 阅读 · 0 评论 -
NLP的特征工程及数据预处理的分类
cleaning大小写同一解码去特殊符号修剪单词内部的错误符号tokenizingtokenizeN-Gramsskip-gramschar-gramsremove清除停用词,稀有单词roots修剪单词的前几个字符修正单词回词根...原创 2019-07-13 16:14:33 · 386 阅读 · 1 评论 -
python的循环同一处理
features = {key:np.array(value) for key,value in dict(features).items()}原创 2019-06-29 17:08:32 · 232 阅读 · 0 评论 -
keras使用word2cev在imdb数据集上做词嵌入,构建embedding矩阵
数据加载import numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrixf...转载 2019-07-10 18:28:55 · 1110 阅读 · 0 评论 -
用keras使用glove预训练的词向量来构建实验的embedding矩阵-以Jigsaw Unintended Bias in Toxicity Classification比赛baseline为例
数据加载import numpy as np # linear algebraimport pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)import os# print(os.listdir("../input"))# print(os.listdir("../input/crawl300d2m"))...原创 2019-07-11 16:27:37 · 1471 阅读 · 1 评论 -
FE离群点分析+分布分析
离群点单变量分析首先用标准化(标准化不会改变数据相对分布的特性)把数据转变成正态分布,分别查看最大和最小的十个值saleprice_scaled = StandardScaler().fit_transform(df_train['SalePrice'][:,np.newaxis]);low_range = saleprice_scaled[saleprice_scaled[:,0].ar...转载 2019-07-30 12:35:52 · 605 阅读 · 0 评论 -
特征选取
当某个特征只有很少类型的取值,而且99%都是其中一类的取值时,这种特征可以删除原创 2019-07-31 15:53:52 · 625 阅读 · 0 评论