自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (1)
  • 收藏
  • 关注

转载 集成学习概述

数据挖掘比赛中提高成绩主要有以下几个方法 特征工程; 调参; 模型融合。 模型融合概述 分类问题:Voting; 回归问题:Average; Bagging: Bagging的常见例子有RF,可并行处理。采用有效有放回的方式进行抽样,用抽样样本建立子模型,最终预测结果可以用Voting和Average方法集成。 Boosting Boosting可以参考李航的统计学习方法。每次迭代给分类错误...

2018-11-09 21:10:19 212

原创 中文文本分类

本文主要实现了卷积神经网络对中文文本进行分类 参考资料: github网址:https://github.com/gaussic/text-classification-cnn-rnn 博客地址:https://blog.csdn.net/weixin_40931845/article/details/83865877 本文是基于TensorFlow在中文数据集上的简化实现,使用了字符级CNN和R...

2019-01-25 18:10:31 806

转载 欠采样(undersampling)和过采样(oversampling)会对模型带来怎样的影响

欠采样(undersampling)和过采样(oversampling) 参考:知乎专栏 https://www.zhihu.com/question/269698662 为什么类别不平衡会影响模型输出? 采样法和类别不平衡有什么关系? 采样法最受人诟病的就是可能会改变原始数据的分布,从而带来偏差。 如何直观理解采样法 undersample了覆盖量不够, oversample了会overfit...

2018-11-26 15:29:23 11624

原创 使用过采样或欠采样处理类别不均衡的数据后,如何正确的做交叉验证?

使用过采样或欠采样处理类别不均衡的数据后,如何正确的做交叉验证? 当我们遇到数据不均衡的时候,我们该如何做: 忽略这个问题 对占比较大的类别进行欠采样 对占比较小的类别进行过采样 忽略这个问题 如果我们使用不均衡的数据来训练分类器,那么训练出来的分类器在预测数据的时候总会返回数据集中占比最大的数据所对应的类别作为结果。分类器的偏差太大,召回率为零或非常接近零,而真假率为1或非常接近于1,即所有或...

2018-11-26 14:44:01 2072

原创 NLTK基本操作详解——NLP

NLTK基本操作 本文主要包含以下内容: 从nltk.book上下载数据集 文本搜素 文本统计 制作词云 词频统计 NLP常用函数 从nltk.book上下载数据集 import nltk nltk.download() from nltk.book import * 文本搜素 # 查看单词good所在语境 text1.concordance('good') # 与good用法相似的词汇 ...

2018-11-13 23:46:41 1195

新闻的文本信息

中文的文本信息,是关于券商的新闻,可用于情感分析,储存方式是字典

2018-12-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除