深度学习笔记——基于传统机器学习算法（LR、SVM、GBDT、RandomForest）的句子对匹配方法

最新推荐文章于 2024-07-27 10:40:32 发布

mpk_no1

最新推荐文章于 2024-07-27 10:40:32 发布

阅读量8.5k

点赞数 3

分类专栏： Doc2vec 句子对匹配机器学习 Sklearn

本文链接：https://blog.csdn.net/mpk_no1/article/details/72836042

版权

本文介绍了如何使用逻辑回归（LR）、SVM、GBDT和随机森林（RandomForest）等传统机器学习算法进行句子对匹配任务，特别是针对Paraphrase判断。实验数据显示，随机森林在Quora问题对数据集上的准确率最高，达到78.36%，而SVM在时间成本上最高。

摘要由CSDN通过智能技术生成

句子对匹配（Sentence Pair Matching）问题是NLP中非常常见的一类问题，所谓“句子对匹配”，就是说给定两个句子S1和S2，任务目标是判断这两个句子是否具备某种类型的关系。如果形式化地对这个问题定义，可以理解如下：

意思是给定两个句子，需要学习一个映射函数，输入是两个句子对，经过映射函数变换，输出是任务分类标签集合中的某类标签。

典型的例子就是Paraphrase任务，即要判断两个句子是否语义等价，所以它的分类标签集合就是个{等价，不等价}的二值集合。除此外，还有很多其它类型的任务都属于句子对匹配，比如问答系统中相似问题匹配和Answer Selection。

我在前一篇文章中写了一个基于Doc2vec和Word2vec的无监督句子匹配方法，这里就顺便用传统的机器学习算法做一下。用机器学习算法处理的话，这里的映射函数就是用训练一个分类模型来拟合F，当分类模型训练好之后，对于未待分类的数据，就可以输入分类模型，用训练好的分类模型进行预测直接输出结果。

关于分类算法：

常见的分类模型有逻辑回归（LR）、朴素贝叶斯、SVM、GBDT和随机森林（RandomForest）等。本文选用的机器学习分类算法有：逻辑回归（LR）、SVM、GBDT和随机森林（RandomForest）。

由于Sklearn中集成了常见的机器学习算法，包括分类、回归、聚类等，所以本文使用的是Sklearn，版本是0.17.1。

关于特征选择：

由于最近一直在使用doc2vec和Word2vec，而且上篇文章中对比结果表示，用Doc2vec得到句子向量表示比Word2vec求均值得到句子向量表示要好，所以这里使用doc2vec得到句子的向量表示，向量维数为100维，直接将句子的100维doc2vec向量作为特征输入分类算法。

关于数据集：

数据集使用的是Quora发布的Question Pairs语义等价数据集，和上文是同一个数据集，可以点击这个链接下载点击打开链接，其中包含了40多万对标注好的问题对，如果两个问题语义等价，则label为1，否则为0。统计之后，共有53万多个问题。具体格式如下图所示：

统计出所有的问题之后训练得到每一个问题的doc2vec向量，作为分类算法的特征输入。

将语料库随机打乱之后，切分出10000对数据作为验证集，剩余的作为训练集。

下面是具体的训练代码：

数据加载和得到句子的doc2vec代码是同一份，放在前面：

# coding:utf-8
import numpy as np
import csv
import datetime
from sklearn.ensemble import RandomForestClassifier
import os
import pandas as pd
from sklearn import metrics, feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer, CountVectorizer
cwd = os.getcwd()


def load_data(datapath):