机器学习
文章平均质量分 54
浅曦忆
一个初出茅庐的程序媛,正在代码的路上奋斗
展开
-
使用Thuctc进行中文文本分类应用
这几个月一直在做跟机器学习相关的东西用来减轻运营在文章方面的工作量:文章自动审核及分类(单分类与多分类并存情况,及对文章进行标签化) 这里介绍的是使用Thuctc对文章进行分类,根据条件来判断多分类情况的取舍(ps:为什么不使用thuctc对文章进行审核,是因为用来训练审核的样本并不好,可能存在脏数据,而且对于关键词的标识度有所偏差,导致结果不太理想,便改用了其他方法)首先介绍一下:THUC...原创 2018-03-12 14:10:58 · 3099 阅读 · 7 评论 -
Tensorflow+gensim实现文章自动审核功能
首先,一定要吐槽一下,千万不要拿笔记本跑训练集很大的模型,不然真的能跑到吐血三升,而且电脑卡到宕机之后好不容易等到电脑能动了就是报错“内存不足”,简直能逼死我。每次跑程序都得把虚存开到最大,然后看着我的电脑在那卡卡卡,我都在想会不会把我电脑跑废了。当然结局是美好的,因为模型跑出来的审核结果正确率在94%以上,简直是惊喜到不行,嗯,基于这个理由,给我配工作站让我专门跑算法了,开心~ 好了,言归正传...原创 2018-03-12 15:58:35 · 2279 阅读 · 7 评论 -
python根据关键词实现信息检索推荐(使用深度学习算法)
算法中最主要的是用到了gensim.models.doc2vec将信息存储成词典进行建模并将信息文件转存到数据库中供其他代码使用。因为注释写的比较清晰。所以逻辑不再赘述,直接上代码看看就知道啦~因为在前面的算法中已经对数据库操作类进行了描述,这里就不再黏贴出来,有需要的亲可以翻看以前的文章参考即可~算法代码如下:import tensorflow as tfimport osimpor...原创 2018-05-23 17:14:43 · 14972 阅读 · 10 评论