特征工程
key_points
希望以此为起点,每天能进步一点点;
希望能坚持持续记录自己的所见所得;
希望坚持。
展开
-
达观杯-特征工程 3--(特征衍生)
在很多时候,当原数据中的特征数量很少,或者特征数量够但是想进一步提升模型的性能。这个时候就需要在原数据特征的基础上衍生新的特征以此来增加特征的数量。 只要方法得当的话,通常情况下,效果会比原来的效果要好一点。 多项式法构造特征 import pickle import time from sklearn.preprocessing import PolynomialFeatures t_star...原创 2018-10-11 10:08:47 · 1115 阅读 · 0 评论 -
NMF算法--非负矩阵分解算法(python实现)
NMF算法–非负矩阵分解算法 简介: NMF算法:非负矩阵分解算法。 **目标:**将一个大矩阵分解成两个稍小的矩阵(利用矩阵的乘法)。 要求:待分解矩阵不能有负值。因为负值对于数据是无效的。 方法: 假定有一个元数据矩阵V,目标是将其分解成两个非负矩阵W和H相乘的形式。 **V = W * H ** (这边需要注意一些维度也就是角标,我就会直接写了) 其中,W称为权重系数矩阵,而H则为特征向量(...原创 2018-10-10 15:42:35 · 11669 阅读 · 1 评论 -
达观杯-特征工程4(特征选择)
前面在特征工程2中也有一些关于特征选取的内容,但是没有完整。下面是从模型中进行特征选取的一些知识。 linearSVM """ 用linearsvm从tfidf(word)中挑选特征,并将结果保存到本地 tfidf(article)可做类似处理 """ import time import pickle from sklearn.feature_selection import SelectF...原创 2018-11-09 14:48:51 · 156 阅读 · 0 评论 -
达观杯--特征工程5(特征组合)
前面已经用各种方法对数据集中‘Word’进行了处理,主要是向量化包括countVectorizer等,也有特征降维(特征选择)等工作。接下来将数据集中的article这一属性进行同样的处理之后,将其和Word处理之后的特征进行组合。 1 Word + article 使用tfidf,当然使用其他的向量化方法也是完全可以的。 import pickle import pandas as pd f...原创 2018-11-09 15:22:55 · 229 阅读 · 0 评论 -
达观杯--模型构建(lightgbm)
使用lightgbm作为模型对数据进行训练。 import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.metrics import f1_score import time import pickle import lightgbm as lgb...原创 2018-11-09 15:26:35 · 248 阅读 · 0 评论