(持续更新中。。。。。。)
根据评论发现有用的数据,主要目的是
1.版本更新说明
2.根据评论分类,发觉需要改进的问题。首先确认是否是我们产品的问题,然后找出问题的分类:比如性能问题,业务问题,等等。
伪代码
1.加载数据 read_csv() 注意编码格式
2.用jieba将每行分词
3.找出所有语料库dict(最耗时的步骤)
去掉低频词高频词(低高频词对分类没有很高的实际价值)
去特殊字符,标点符号
把语料库的空字符转成 '无字典数据' :
df_comment_word_list[df_comment_word_list.iloc[:,-1]=='']='无字典数据' (以一个java程序员的视角,这行python代码简直是在变魔术)
4.转成词向量,使用不同的聚类算法测试,(推荐Biopython.kcluster,可以使用聚类的不同距离类型),来选择最合适的算法。
https://github.com/biopython/biopython
坑:
FutureWarning: Conversion of the second argument of issubdtype from `float` to `np.floating` is deprecated. In future, it will be treated as `np.float64 == np.dtype(float).type`.
if hasattr(X, 'dtype') and np.issubdtype(X.dtype, np.float):
https://blog.csdn.net/qq_41185868/article/details/80276847
4028

被折叠的 条评论
为什么被折叠?



