秫米123-CSDN博客

转载集成学习概述

数据挖掘比赛中提高成绩主要有以下几个方法特征工程；调参；模型融合。模型融合概述分类问题：Voting;回归问题：Average;Bagging：Bagging的常见例子有RF，可并行处理。采用有效有放回的方式进行抽样，用抽样样本建立子模型，最终预测结果可以用Voting和Average方法集成。BoostingBoosting可以参考李航的统计学习方法。每次迭代给分类错误...

2018-11-09 21:10:19 282

原创中文文本分类

本文主要实现了卷积神经网络对中文文本进行分类参考资料：github网址：https://github.com/gaussic/text-classification-cnn-rnn博客地址：https://blog.csdn.net/weixin_40931845/article/details/83865877本文是基于TensorFlow在中文数据集上的简化实现，使用了字符级CNN和R...

2019-01-25 18:10:31 896

转载欠采样（undersampling）和过采样（oversampling）会对模型带来怎样的影响

欠采样（undersampling）和过采样（oversampling）参考：知乎专栏https://www.zhihu.com/question/269698662为什么类别不平衡会影响模型输出？采样法和类别不平衡有什么关系？采样法最受人诟病的就是可能会改变原始数据的分布，从而带来偏差。如何直观理解采样法undersample了覆盖量不够， oversample了会overfit...

2018-11-26 15:29:23 11954

原创使用过采样或欠采样处理类别不均衡的数据后，如何正确的做交叉验证？

使用过采样或欠采样处理类别不均衡的数据后，如何正确的做交叉验证？当我们遇到数据不均衡的时候，我们该如何做：忽略这个问题对占比较大的类别进行欠采样对占比较小的类别进行过采样忽略这个问题如果我们使用不均衡的数据来训练分类器，那么训练出来的分类器在预测数据的时候总会返回数据集中占比最大的数据所对应的类别作为结果。分类器的偏差太大，召回率为零或非常接近零，而真假率为1或非常接近于1，即所有或...

2018-11-26 14:44:01 2288 1

原创 NLTK基本操作详解——NLP

NLTK基本操作本文主要包含以下内容：从nltk.book上下载数据集文本搜素文本统计制作词云词频统计NLP常用函数从nltk.book上下载数据集import nltknltk.download()from nltk.book import *文本搜素# 查看单词good所在语境text1.concordance('good')# 与good用法相似的词汇...

2018-11-13 23:46:41 1260