1.背景
智能客服,检索式
2.用到的库
1.分词:
pkuseg,原因北大的论文号称分词效果很好,比jieba,哈工大的都好,效果还行,但是也没那么神奇
PaddleNLP的lac模型,用起来效果可以的。
2.无监督聚类:
HanLP,用的它的非监督文本聚类,主要是实现了repeated bisection算法,该聚类方法,可以不指定聚类的类别数
用于智能客服的句子无监督聚类的效果还是可以。题主,用了一个递归聚类来快速获取百万相似的句子。缺点是语义相似性的句子样本需要人工增加。
btw:安装时候,千万注意,自己先下载他的data.zip不然慢的死。
3.numpy
这个库,大家应该比较用的多,这里提一点,装1.16.1版本或者以上,因为在1.16.0与pickle一起用的时候, 会内存泄 漏。
4.Bert4Keras
主要是使用此库来进行ALbert预训练模型的加载。国内厉害的一颗新星写的。
5.pysparnn
facebook公司的作品。主要用于召回相似的句子。不杀进程,动态多次加载它的模型的时候,会内存泄漏。
6.flask
这个框架做Web应该比较清楚,用做提供服务接口框架。比如调用ALbert模型,通过flask api发送请求,flask接到请求运行模型预测。
7.sklearn
用这个库,进行特征的提前,TfidfVectorizer, CountVectorizer,sklearn.feature_extraction.text
8.Keras
现在深度学习大行其道,此库用于深度学习模型的训练人性化还可以的。keras.preprocessing.text.处理文本。 keras.preprocessing.sequence
logging日志必须的。
其余:redis,pymysql,pickle,codecs,configparser,json
3.结论
分词,召回,相似度匹配,数据库处理,消息处理。这些功能需要的库,就是上面的了。