Python:用机器学习方法实现搜索引擎或者智能匹配系统

1.准备工作

      在本文开始之前,我们首先是对原始的CSV表格的数据读取,然后分词,之后才开始进行智能匹配。csv的读取和分词都在之前的博客,所有的代码都是一个工程的。但是由于训练集是公司的数据,所以不方便放出,请谅解。但是对于训练集数据的描述CSV读取的博客中有提到。

     csv的读取:https://blog.csdn.net/qq_28626909/article/details/81674612

     分词:https://blog.csdn.net/qq_28626909/article/details/81674728

2.对智能匹配的理解

     对于智能匹配,其实我个人感觉用深度学习是最好的,但是公司开始要求用机器学习,所以也就写了............

    关于这个思想呢,大致是这样的:

2.1 先对问题的库进行处理,构建成一个词向量库

     比如,我们所有的文本中有2万行,但是在分词处理之后可能之后8000个不同的词向量,所以我们就可以用一个   2万*8000的矩阵表示我们整个文本,每一行有8000个元素,只要原来对应的行数中,出现几个这个词向量,我们给她赋值几,没出现的全是0。

    我们现在引入一段代码看看(代码原文链接:https://blog.csdn.net/guotong1988/article/details/51567562

    

from sklearn.feature_extraction.text import CountVectorizer

texts=["dog cat fish","dog cat cat","fish bird", 'bird']
cv = CountVectorizer()
cv_fit=cv
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值