Table of Contents
最近在通过Google online education学习机器学习有关的课程,对于学习的内容做一个简单的记录。
学习资源链接:https://developers.google.com/machine-learning/crash-course/
感兴趣的也可以去学习,这个需要VPN访问。
1、什么是特征工程?
特征工程简单来说,就是将原始数据转换为特征向量。这种特征向量被计算机所使用,用来训练模型。 如下图:
2、 那么将原始数据如何进行转换呢?
2.1 数值映射
如果是整型或者浮点数据则不需要特别的转换,直接使用,一般算法中使用浮点数,整型的话可以转换为浮点。
2.2 分类值映射
一般分类的特征都包含多个选项的数据集。比如街道名字“,{'Charleston Road', 'North Shoreline Boulevard', 'Shorebird Way', 'Rengstorff Avenue'}
这种字符串类型不能直接用于机器学习,所以需要转换。有一种转换方法就是one-hot 编码。 它的编码规则是将出现的设置为1,其他的都设置为0.如下图: