NLP项目流程
NLP流程:
1.拿到数据,文本获取
2.文本处理 :清洗 分词 词性标注 词频统计 抽取特征
3.NLP任务分类: 文本分类 主题理解 情感分析
4.模型实验 优化: 1调节超参 2.模型改进迁移融合
5.评价
6.工程应用
NLP 整体学习规划:
形势
算法岗就业形势越来越严峻。企业没有了之前的盲目,在用人方面更加理智,看中能力。
大公司有更多的资源(数据、人才、GPU),有专门的算法组;小公司更依赖传统的开发业务。
很多传统行业(畜牧业、种植业等)需要人工智能技术的注入。
学习理论阶段(自下向上学习)
学习基础的数学理,高数、线性代数、概率论、信息论、凸优化等。
学习一些分类、回归、聚类算法,熟悉它们的推导过程,尽量实现代码的复现。
反复学习,加深对算法的理解,比如算法是如何解决过拟合问题的,两种分类算法的区别。
工程实践阶段(自上向下研究)
针对某一方向(图像、语音、自然语言处理),了解一些应用场景。并且进一步深入,了解企业应用中需要解决的问题。
针对这个问题,尝试用不同的算法、模型来解决问题,通过代码的实现比较不同算法的优劣。
参考别人的论文,了解别人的解决思路,尝试复现。
核心
不求广度,但在一个点上一定要有深度。
需要工程能力,比工程能力更重要的是解决问题的思路。前者通过代码的积累可以提升,后者需要扎实的数学理论。