自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

自律 · 克制

github.com/guotong1988

原创 分类模型 训练数据不均匀

上采样是把小种类复制多份,下采样是从大众类中剔除一些样本

2018-04-24 15:37:44

阅读数 921

评论数 0

原创 python 正则表达式 实例

其中 .+ 代表匹配任意字符1次到无限次 \s 代表匹配空格、制表符、换页符等等,等价于 [\f\n\r\t\v] import re target_pattern = ["( lambda ?x ( P E ?x ) )", "( lambda ?x ( ...

2018-04-24 15:34:25

阅读数 742

评论数 0

原创 NER模型之所以有必要用的原因

如果用规则,除了词库,也就是首字母大写,碰到Apple of Jobs这样中间有 of 的非首字母大写的没辙,等等 因为CRF NER模型是根据上下文信息和词的内部结构的 1,就是上下文确定了,中间的词的tag也就出来了,无论中间的词是什么 2,就是如果一个词内的n-gram特征进去了,词内...

2018-04-23 15:39:18

阅读数 677

评论数 0

原创 使用stanford corenlp训练自己的NER模型

https://nlp.stanford.edu/software/crf-faq.shtml 另外https://nlp.stanford.edu/software/ 的Stanford Named Entity Recognizer是模型已经固定直接用的,和自己训练是两回事

2018-04-23 15:32:59

阅读数 1679

评论数 0

转载 文本分类 blending ensemble stacking 代码

https://www.kaggle.com/hhstrand/oof-stacking-regime/code https://www.kaggle.com/ogrellier/things-you-need-to-be-aware-of-before-stacking https://ww...

2018-04-13 10:13:36

阅读数 303

评论数 0

转载 多标签分类 原理 及 代码

原理 多个二分类 代码 https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/kernels

2018-04-13 10:11:09

阅读数 922

评论数 0

转载 capsule net 文本分类 代码

https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/kernels https://www.kaggle.com/chongjiujjin/capsule-net-with-gru

2018-04-02 15:40:09

阅读数 962

评论数 0

提示
确定要删除当前文章?
取消 删除