上一节讲了多标签识别,图像分割和data block,这之前讲的都是图像识别的方法,今天一节课把剩下的3种核心领域都讲了:自然语言处理,表格数据处理,协同过滤,并且把神经网络层与层之间的微观活动也都详细的描述了一遍,可谓是干货满满。
1.概览
- 首先是自然语言处理 NLP(Natural Language Processing ),主要讲解通过迁移学习来实现IMDB评论的正负面情绪分辨;
- 然后是根据个人信息的数据,预测哪些人可以获得高薪;
- 最后是协同过滤,在用户喜欢了一些电影之后,可以预测某个他没看过的电影是否会喜欢。
2.1核心流程
NLP - IMDB情绪分析大概需要3步,建立宏观的语言模型,利用的是Wikipedia的数据训练的模型;然后是根据IMDB的数据训练定向的电影行业语言模型;最后是用训练好的语言模型,训练一个正负面情绪的分类器。
表格数据处理-薪资预测:主要是把类别变量转化成连续变量,比如职业、婚姻情况等……会转化成0,1,2这样的数字;然后通过processor进行预处理,然后就可以训练了。
协同过滤-推荐喜欢的电影:流程都一样,只不过使用特殊类型的CollabDataBunch,以及特殊的collab_learner。
2.2核心机器学习概念
- 参数 weights/parameters:用于计算的参数/权重矩阵
- 激活 activations:计算后的结果,包含矩阵运算后的结果和激活函数运算后的结果
- 激活函数 activation functions:一般是ReLU函数,只改变内容不改变size
3.1实例详细分析(NLP)
建立宏观的语言模型,利用的是Wikipedia的数据训练的模型(Wikitext 103);
- "I'd like to eat a hot ___":
- Obviously, "dog