数据处理
決心
致力于解决实际问题
展开
-
数据处理之one-hot
分类方法,通常需要把数据的各个属性转换为一个向量表示,这样每条数据的特征就是一个向量,向量上的每个维度就表示了一个特征属性。 但是如果要转换的数据包含了3种属性,比如身高,体重,年龄。A是女,168cm,70kg,30岁;B是男,180cm,90kg,20岁,那么直接用数值做向量就变成了,0,168,70,30;1,180,90,20。而168和70或者30是不同的属性,更明显的是0或1表示的性别和原创 2016-12-20 14:33:09 · 9359 阅读 · 0 评论 -
机器学习之数据清理经验
文本类数据,尤其二分类,如果正反比悬殊(超过1:10),反例极容易出现包含正例的噪声(人工标注准确率95%) 1.这时,首先去除反例中和正例完全相同的误分类(比如新闻,就是标题;聊天数据就是去掉不可见字符后的文本) 2.视数据质量,也可以用一些高阈值的相似性比较方法,比如杰卡德,余弦,编辑距离等,再去除一部分噪声 3.训练好的分类器,在正例分类器中,按分类器的分值进行排序,头部的“误召回”通常原创 2017-03-20 20:37:59 · 1276 阅读 · 1 评论