- 博客(5)
- 资源 (1)
- 收藏
- 关注
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
转载 集成学习概述
数据挖掘比赛中提高成绩主要有以下几个方法 特征工程; 调参; 模型融合。 模型融合概述 分类问题:Voting; 回归问题:Average; Bagging: Bagging的常见例子有RF,可并行处理。采用有效有放回的方式进行抽样,用抽样样本建立子模型,最终预测结果可以用Voting和Average方法集成。 Boosting Boosting可以参考李航的统计学习方法。每次迭代给分类错误...
2018-11-09 21:10:19
212
原创 中文文本分类
本文主要实现了卷积神经网络对中文文本进行分类 参考资料: github网址:https://github.com/gaussic/text-classification-cnn-rnn 博客地址:https://blog.csdn.net/weixin_40931845/article/details/83865877 本文是基于TensorFlow在中文数据集上的简化实现,使用了字符级CNN和R...
2019-01-25 18:10:31
806
转载 欠采样(undersampling)和过采样(oversampling)会对模型带来怎样的影响
欠采样(undersampling)和过采样(oversampling) 参考:知乎专栏 https://www.zhihu.com/question/269698662 为什么类别不平衡会影响模型输出? 采样法和类别不平衡有什么关系? 采样法最受人诟病的就是可能会改变原始数据的分布,从而带来偏差。 如何直观理解采样法 undersample了覆盖量不够, oversample了会overfit...
2018-11-26 15:29:23
11624
原创 使用过采样或欠采样处理类别不均衡的数据后,如何正确的做交叉验证?
使用过采样或欠采样处理类别不均衡的数据后,如何正确的做交叉验证? 当我们遇到数据不均衡的时候,我们该如何做: 忽略这个问题 对占比较大的类别进行欠采样 对占比较小的类别进行过采样 忽略这个问题 如果我们使用不均衡的数据来训练分类器,那么训练出来的分类器在预测数据的时候总会返回数据集中占比最大的数据所对应的类别作为结果。分类器的偏差太大,召回率为零或非常接近零,而真假率为1或非常接近于1,即所有或...
2018-11-26 14:44:01
2072
原创 NLTK基本操作详解——NLP
NLTK基本操作 本文主要包含以下内容: 从nltk.book上下载数据集 文本搜素 文本统计 制作词云 词频统计 NLP常用函数 从nltk.book上下载数据集 import nltk nltk.download() from nltk.book import * 文本搜素 # 查看单词good所在语境 text1.concordance('good') # 与good用法相似的词汇 ...
2018-11-13 23:46:41
1195
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人