![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
AI 比赛
小刀丶
这个作者很懒,什么都没留下…
展开
-
中文文本分类 python jieba sklearn pytorch
简介大赛官网对商品标题进行分类,类似淘宝商品的中文文本标题作为特征,三级类别作为标签。eg.数据分析数据格式每行作为一个sample中文文本 + 制表符 + 类别标签训练集 50万 带标签样本,测试集 450万 无标签样本每个标签带有三级关系,逐层递进细分数据分布数据不平衡 (Find 1258 classes in 500000 samples)数据预处理j...原创 2020-04-08 04:54:04 · 761 阅读 · 0 评论 -
[Bug记录] sklearn中predict与predict_proba的识别结果不一致
今天训练了好久的决策树模型在测试的时候发现个bug,使用predict得到的结果居然不是predict_proba中最大数值的索引!因为脚本中需要模型的置信度,所以希望拿到predict_proba的类别概率。经过胡乱分析发现predict_proba得到的维度比总类别数少了几个,经过测试发现就是这个造成的,即训练集中有部分类别样本数为0。这个问题比较隐蔽,记录一下方便天涯沦落人绕坑。Tip:...原创 2019-03-20 19:05:19 · 3959 阅读 · 10 评论 -
[Bug记录] 词向量拼接顺序错乱
这几天做NLP的时候拼接多个词向量来代表一个单词,但是发现每次重启软件得到的词向量都不一样。。吐血debug才发现是集合的问题,把词向量放入集合后按集合中输出的词向量模型来编码,集合的输出顺序具有的随机性导致输出结果不固定!集合 | SET集合(set)是Python中一种重要的数据类型,表示一组各不相同元素的无序集合,其主要应用于重复元素消除及关系测试等集合在Python内部通...原创 2019-03-22 15:27:34 · 526 阅读 · 0 评论