2018年NLP达观杯-复盘

最新推荐文章于 2020-01-26 10:58:06 发布

机智翔学长

最新推荐文章于 2020-01-26 10:58:06 发布

阅读量3.2k

点赞数 8

分类专栏： NLP比赛文章标签：学习记录比赛

本文链接：https://blog.csdn.net/GreatXiang888/article/details/82873435

版权

2018年NLP达观杯-复盘

前言
数据预处理
特征工程
训练分类器
预测
保存至本地
改进
总结

前言

我是xx学校的一名研二学生，接触机器学习一年，深度学习半年了，但是基础还是不够扎实，去找实习时，面试官问我一些理论基础，很多答不好，而且要推导公式的话更加不会了。

之前也和我大哥（一个大佬，现在在微软实习）一起做过蚂蚁金服的文本相似度计算NLP比赛，使用的是text-cnn, lstm等等一些深度学习的模型。但我在这个过程中，比较懒，没有深入解读代码，只做了一少部分特征提取和调差的工作。导致在面试的时候，我连模型的结构都画不出来。

后来比较幸运的是，SAS公司愿意让我去他那实习，负责语言种类的识别工作，现在用的是Python进行开发，任务还能接受，而下班时间也比较早，所以想既然有稳定而且比较轻松的实习了，还是需要把一些基础知识再打扎实才行。
基于上面这些原因，而又在机缘巧合之下，在某个公众号里发现了自学西瓜书+带打比赛这个活动，于是报名参加。（说来惭愧，虽然我确实也看了一些西瓜书，有了一点收获，但并没有达到自己期望和老师要求的那个标准，有时候就偷懒了）还有一点，我想只靠自己在没有队友的情况下，做一两个比赛，我觉得只有这样才能不依靠别人，完全弄懂整个项目，对自己的提升也是很大的。

下面我就来介绍一下这次我做的（学习到的）这个比赛。
一些代码，是参考jian老师的：（代码可能不是最完美的，但是作为学习足够了）
https://github.com/MLjian/TextClassificationImplement
比赛地址：
http://www.dcjingsai.com/common/cmpt/“达观杯”文本智能处理挑战赛_竞赛信息.html

数据预处理

在这个过程中，我考虑到我的电脑性能原因，不想让它一次性把所有的文件读入。而是采取把整个文件切分为好几个文件并保存，然后再一次读入到内存。

拆分数据

#11万条数据
import pandas as pd
import time
start = time.time()
file_path = '../new_data/train_set.csv' #要拆分文件的位置
reader = pd.read_csv(file_path, chunksize=20000)
count = 0
for chunk in reader:
    print('save train_set%s.csv'%count)
    chunk.to_csv('train_set'+str(count)+'.csv', index=0)
    use = time.time()-start
    print('{:.0f}m {:.0f}s ...'.format(use//60, use%60))
    count += 1
#可参考 https://blog.csdn.net/zm714981790/article/details/51375475

拆分后得到如下