1.准备工作
在本文开始之前,我们首先是对原始的CSV表格的数据读取,然后分词,之后才开始进行智能匹配。csv的读取和分词都在之前的博客,所有的代码都是一个工程的。但是由于训练集是公司的数据,所以不方便放出,请谅解。但是对于训练集数据的描述CSV读取的博客中有提到。
csv的读取:https://blog.csdn.net/qq_28626909/article/details/81674612
分词:https://blog.csdn.net/qq_28626909/article/details/81674728
2.对智能匹配的理解
对于智能匹配,其实我个人感觉用深度学习是最好的,但是公司开始要求用机器学习,所以也就写了............
关于这个思想呢,大致是这样的:
2.1 先对问题的库进行处理,构建成一个词向量库
比如,我们所有的文本中有2万行,但是在分词处理之后可能之后8000个不同的词向量,所以我们就可以用一个 2万*8000的矩阵表示我们整个文本,每一行有8000个元素,只要原来对应的行数中,出现几个这个词向量,我们给她赋值几,没出现的全是0。
我们现在引入一段代码看看(代码原文链接:https://blog.csdn.net/guotong1988/article/details/51567562)
from sklearn.feature_extraction.text import CountVectorizer
texts=["dog cat fish","dog cat cat","fish bird", 'bird']
cv = CountVectorizer()
cv_fit=cv