2018年NLP达观杯-复盘

前言

我是xx学校的一名研二学生,接触机器学习一年,深度学习半年了,但是基础还是不够扎实,去找实习时,面试官问我一些理论基础,很多答不好,而且要推导公式的话更加不会了。

之前也和我大哥(一个大佬,现在在微软实习)一起做过蚂蚁金服的文本相似度计算NLP比赛,使用的是text-cnn, lstm等等一些深度学习的模型。但我在这个过程中,比较懒,没有深入解读代码,只做了一少部分特征提取和调差的工作。导致在面试的时候,我连模型的结构都画不出来。

后来比较幸运的是,SAS公司愿意让我去他那实习,负责语言种类的识别工作,现在用的是Python进行开发,任务还能接受,而下班时间也比较早,所以想既然有稳定而且比较轻松的实习了,还是需要把一些基础知识再打扎实才行。
基于上面这些原因,而又在机缘巧合之下,在某个公众号里发现了自学西瓜书+带打比赛这个活动,于是报名参加。(说来惭愧,虽然我确实也看了一些西瓜书,有了一点收获,但并没有达到自己期望和老师要求的那个标准,有时候就偷懒了)还有一点,我想只靠自己在没有队友的情况下,做一两个比赛,我觉得只有这样才能不依靠别人,完全弄懂整个项目,对自己的提升也是很大的。

下面我就来介绍一下这次我做的(学习到的)这个比赛。
一些代码,是参考jian老师的:(代码可能不是最完美的,但是作为学习足够了)
https://github.com/MLjian/TextClassificationImplement
比赛地址:
http://www.dcjingsai.com/common/cmpt/“达观杯”文本智能处理挑战赛_竞赛信息.html

数据预处理

在这个过程中,我考虑到我的电脑性能原因,不想让它一次性把所有的文件读入。而是采取把整个文件切分为好几个文件并保存,然后再一次读入到内存。

拆分数据

#11万条数据
import pandas as pd
import time
start = time.time()
file_path = '../new_data/train_set.csv' #要拆分文件的位置
reader = pd.read_csv(file_path, chunksize=20000)
count = 0
for chunk in reader:
    print('save train_set%s.csv'%count)
    chunk.to_csv('train_set'+str(count)+'.csv', index=0)
    use = time.time()-start
    print('{:.0f}m {:.0f}s ...'.format(use//60, use%60))
    count += 1
#可参考 https://blog.csdn.net/zm714981790/article/details/51375475

拆分后得到如下

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值