nlp 评论分类实现总结

(持续更新中。。。。。。)

根据评论发现有用的数据,主要目的是

1.版本更新说明

2.根据评论分类,发觉需要改进的问题。首先确认是否是我们产品的问题,然后找出问题的分类:比如性能问题,业务问题,等等。

 

伪代码

1.加载数据  read_csv()  注意编码格式

2.用jieba将每行分词

3.找出所有语料库dict(最耗时的步骤)

    去掉低频词高频词(低高频词对分类没有很高的实际价值)

    去特殊字符,标点符号

    把语料库的空字符转成 '无字典数据' :

df_comment_word_list[df_comment_word_list.iloc[:,-1]=='']='无字典数据' (以一个java程序员的视角,这行python代码简直是在变魔术)

4.转成词向量,使用不同的聚类算法测试,(推荐Biopython.kcluster,可以使用聚类的不同距离类型),来选择最合适的算法。

https://github.com/biopython/biopython

 

坑:

FutureWarning: Conversion of the second argument of issubdtype from `float` to `np.floating` is deprecated. In future, it will be treated as `np.float64 == np.dtype(float).type`.
  if hasattr(X, 'dtype') and np.issubdtype(X.dtype, np.float):

https://blog.csdn.net/qq_41185868/article/details/80276847

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值