实际NLP工程师用的NLP库

1.背景

智能客服,检索式

2.用到的库

1.分词:

         pkuseg,原因北大的论文号称分词效果很好,比jieba,哈工大的都好,效果还行,但是也没那么神奇

         PaddleNLP的lac模型,用起来效果可以的。

2.无监督聚类:

          HanLP,用的它的非监督文本聚类,主要是实现了repeated bisection算法,该聚类方法,可以不指定聚类的类别数

用于智能客服的句子无监督聚类的效果还是可以。题主,用了一个递归聚类来快速获取百万相似的句子。缺点是语义相似性的句子样本需要人工增加。

btw:安装时候,千万注意,自己先下载他的data.zip不然慢的死。

3.numpy

        这个库,大家应该比较用的多,这里提一点,装1.16.1版本或者以上,因为在1.16.0与pickle一起用的时候, 会内存泄 漏。

4.Bert4Keras
       主要是使用此库来进行ALbert预训练模型的加载。国内厉害的一颗新星写的。

5.pysparnn
      facebook公司的作品。主要用于召回相似的句子。不杀进程,动态多次加载它的模型的时候,会内存泄漏。

6.flask
     这个框架做Web应该比较清楚,用做提供服务接口框架。比如调用ALbert模型,通过flask api发送请求,flask接到请求运行模型预测。

7.sklearn

     用这个库,进行特征的提前,TfidfVectorizer, CountVectorizer,sklearn.feature_extraction.text
8.Keras
    现在深度学习大行其道,此库用于深度学习模型的训练人性化还可以的。keras.preprocessing.text.处理文本。            keras.preprocessing.sequence

logging日志必须的。

其余:redis,pymysql,pickle,codecs,configparser,json

3.结论

分词,召回,相似度匹配,数据库处理,消息处理。这些功能需要的库,就是上面的了。

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ai君臣

学会的就要教给人

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值