Scikit-Learn是基于python的机器学习模块,基于BSD开源许可证。
这个项目最早由DavidCournapeau 在2007年发起的,目前也是由社区自愿者进行维护。它的主要特点有操作简单、高效的数据挖掘和数据分析、无访问限制、在任何情况下可重新使用、建立在NumPy、SciPy和matplotlib基础上、使用商业开源协议--BSD许可证等。scikit-learn的基本功能主要被分为六个部分,分类,回归,聚类,数据降维,模型选择,数据预处理等。
![922701b4e2505ffc3ca420886e8af458.png](https://img-blog.csdnimg.cn/img_convert/922701b4e2505ffc3ca420886e8af458.png)
今天我们将运用Scikit-Learn从类别变量中提取特征。如果你喜欢,欢迎留言一起探讨。
从类别变量中提取特征
许多问题中的解释变量是类别变量或者名义变量。类别变量的取值范围是一组固定值。例如,一个预测职位薪水的应用可能会使用类似职位所在城市这样的类别变量。类别变量通常使用one-of-k编码算法或者one-hot编码算法进行编码,因此将使用一个二进制特征表示解释变量的所有可能取值。
例如,假设我们的模型中有一个city变量,该变量可以从下面3个值中取值:New York、San Francisco或者Chapel Hill。One-hot编码算法使用每个可能城市的二元特征来表示变量。scikit-learn类库中的Dictvectorizer类是一个可以对类别特征进行one-hot编码