实际NLP工程师用的NLP库

最新推荐文章于 2022-10-03 21:59:44 发布

Ai君臣

最新推荐文章于 2022-10-03 21:59:44 发布

阅读量194

点赞数

文章标签：人工智能 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuchenbaidu/article/details/106059951

版权

1.背景

智能客服，检索式

2.用到的库

1.分词：

pkuseg，原因北大的论文号称分词效果很好，比jieba，哈工大的都好，效果还行，但是也没那么神奇

PaddleNLP的lac模型，用起来效果可以的。

2.无监督聚类：

HanLP,用的它的非监督文本聚类，主要是实现了repeated bisection算法,该聚类方法，可以不指定聚类的类别数

用于智能客服的句子无监督聚类的效果还是可以。题主，用了一个递归聚类来快速获取百万相似的句子。缺点是语义相似性的句子样本需要人工增加。

btw:安装时候，千万注意，自己先下载他的data.zip不然慢的死。

3.numpy

这个库，大家应该比较用的多，这里提一点，装1.16.1版本或者以上，因为在1.16.0与pickle一起用的时候，会内存泄漏。

4.Bert4Keras
主要是使用此库来进行ALbert预训练模型的加载。国内厉害的一颗新星写的。

5.pysparnn
facebook公司的作品。主要用于召回相似的句子。不杀进程，动态多次加载它的模型的时候，会内存泄漏。

6.flask
这个框架做Web应该比较清楚，用做提供服务接口框架。比如调用ALbert模型，通过flask api发送请求，flask接到请求运行模型预测。

7.sklearn

用这个库，进行特征的提前，TfidfVectorizer, CountVectorizer，sklearn.feature_extraction.text
8.Keras
现在深度学习大行其道，此库用于深度学习模型的训练人性化还可以的。keras.preprocessing.text.处理文本。 keras.preprocessing.sequence

logging日志必须的。

其余：redis,pymysql,pickle,codecs,configparser,json

3.结论

分词，召回，相似度匹配，数据库处理，消息处理。这些功能需要的库，就是上面的了。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
实际NLP工程师用的NLP库

1.背景智能客服，检索式2.用到的库1.分词： pkuseg，原因北大的论文号称分词效果很好，比jieba，哈工大的都好，效果还行，但是也没那么神奇 PaddleNLP的lac模型，用起来效果可以的。2.无监督聚类： HanLP,用的它的非监督文本聚类，主要是实现了repeated bisection算法,该聚类方法，可以不指定聚类的类别数用于智能客服的句子无监督聚类的效果还是可以。题主，用了一个递归聚类来快速获取百万相似的句...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Ai君臣 学会的就要教给人

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。