key_points-CSDN博客

原创达观杯--模型构建（lightgbm）

使用lightgbm作为模型对数据进行训练。import numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import f1_scoreimport timeimport pickleimport lightgbm as lgb...

2018-11-09 15:26:35 267

原创达观杯--特征工程5（特征组合）

前面已经用各种方法对数据集中‘Word’进行了处理，主要是向量化包括countVectorizer等，也有特征降维（特征选择）等工作。接下来将数据集中的article这一属性进行同样的处理之后，将其和Word处理之后的特征进行组合。1 Word + article使用tfidf，当然使用其他的向量化方法也是完全可以的。import pickle import pandas as pd f...

2018-11-09 15:22:55 246

原创达观杯-特征工程4（特征选择）

前面在特征工程2中也有一些关于特征选取的内容，但是没有完整。下面是从模型中进行特征选取的一些知识。linearSVM""" 用linearsvm从tfidf(word)中挑选特征，并将结果保存到本地 tfidf(article)可做类似处理 """import time import pickle from sklearn.feature_selection import SelectF...

2018-11-09 14:48:51 179

原创机器学习算法--感知机

今天把感知机的算法用Python实现了一下。主要依据的算法流程是《统计学习方法》中关于感知机的算法过程，具体如下。感知机算法流程：Python实现# -*- coding: utf-8 -*-"""Created on Sat Oct 13 11:09:02 2018@author: Administrator"""import numpy as npclass MLP...

2018-10-13 15:51:04 358

原创达观杯-特征工程 3--（特征衍生）

在很多时候，当原数据中的特征数量很少，或者特征数量够但是想进一步提升模型的性能。这个时候就需要在原数据特征的基础上衍生新的特征以此来增加特征的数量。只要方法得当的话，通常情况下，效果会比原来的效果要好一点。多项式法构造特征import pickleimport timefrom sklearn.preprocessing import PolynomialFeaturest_star...

2018-10-11 10:08:47 1146

原创 NMF算法--非负矩阵分解算法(python实现)

NMF算法–非负矩阵分解算法简介：NMF算法：非负矩阵分解算法。**目标：**将一个大矩阵分解成两个稍小的矩阵（利用矩阵的乘法）。要求：待分解矩阵不能有负值。因为负值对于数据是无效的。方法：假定有一个元数据矩阵V，目标是将其分解成两个非负矩阵W和H相乘的形式。**V = W * H ** （这边需要注意一些维度也就是角标，我就会直接写了）其中，W称为权重系数矩阵，而H则为特征向量（...

2018-10-10 15:42:35 11726 1

原创达观杯-特征工程 2--（增加特征及特征选取）

继续进行特征工程。因为根据原数据，特征信息实际上是偏少的，这个时候需要增加一些特征信息对于训练模型可能会有比较好的效果。1 增加特征将Word的长度这一信息作为一个特征提取出来，并保存。df_train=pd.read_csv('train_set.csv')df_test=pd.read_csv('test_set.csv')'''定义得到单词长度的函数'''def get_w...

2018-10-08 16:59:05 517

原创达观杯-特征工程 1

特征工程这里主要是将文本信息转化成向量。分别采用countvectororizer和TfidfVectorizer ，Doc2Vec 和 HashingVectorizer 。除Doc2vec,其他几种方法都在sklearn包中，具体为sklearn.feature_extraction.text中使用方法：from sklearn.feature_extraction.text impo...

2018-10-07 11:23:34 305

原创达观杯文本分类竞赛 0

#达观杯文本分类比赛#这部分内容只是先简单试水，起到的大概是baseline的作用。后续再思考从各方面进行改进。特征工程使用sklearn库中的CountVectorizer，将原始数据中的文本信息转化成向量。原始数据中有‘article’和‘Word’两个特征，先选择‘Word’，因为‘Word’是显然的有用，而‘article’的作用暂时未知。逻辑回归1.先使用logistics ...

2018-10-05 22:10:37 637

原创 SVM基础

Support Vector Machines基础1 SVM的优缺点：1.1 优点：高维空间适用当特征数量大于样本数量时仍适用支持向量是训练集子集，省空间可选核函数适用不同的实际训练情况1.2 缺点：特征数大于样本数容易过拟合不能给出类别的概率输出2 分类（SVC）：2.1 支持向量机公式：这实际上是具有软间隔的SVM的表达形式，其中xi是训练的向量，y是类别标签...

2018-10-04 11:49:04 496

linichengpps的博客