![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 72
songhk0209
百度学术主页 http://xueshu.baidu.com/scholarID/CN-BX8YRS0J
展开
-
解决样本不平衡问题的奇技淫巧 汇总
先举一个“恐怖”的例子,直观的感受一下样本不平衡问题:你根据1000个正样本和1000个负样本正确训练出了一个准确率(precison,下同)90%召回率(recall,下同)90%的分类器,且通过实验验证没有欠采样过采样的问题哦~完美的样本,完美的模型,破费,你心里暗自得意。然后模型上线,正式预测每天的未知样本~。开始一切都很美好,准确率召回率都很好。直到有一天,数据发生了一点变化,还是...原创 2017-05-09 17:58:29 · 27355 阅读 · 6 评论 -
新词发现及Java和spark实现
新词发现并不是一个新的课题,但最有意思的一点是如果采用无监督的算法,可以完全脱离人工的经验由算法自动找到有语意的“词语”,而不是胡乱拼凑的汉字片段(归因于算法的有效性和语料本身是由有意义的词语构成的)。本文参考了matrix67的一篇文章,[互联网时代的社会语言学:基于SNS的文本数据挖掘](http://www.matrix67.com/blog/archives/5044),采用无监督方法来发现原创 2017-08-31 11:52:32 · 2182 阅读 · 3 评论