标称型数据和数值型数据_数据的来源与类型以及数据的特征抽取

最新推荐文章于 2022-06-01 04:16:03 发布

徐中民

最新推荐文章于 2022-06-01 04:16:03 发布

阅读量2k

点赞数 1

文章标签：标称型数据和数值型数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_26831583/article/details/113720182

版权

本文介绍了数据的来源，包括数据库和爬虫采集，并详细讲解了数据的类型，如标称型和数值型，以及离散型和连续型数据的区别。在数据的特征抽取部分，讨论了如何对分类特征和文本特征进行提取，使用了sklearn.feature_extraction的DictVectorizer和CountVectorizer、TfidfVectorizer等工具进行转换和表示。

摘要由CSDN通过智能技术生成

数据的来源与类型

大部分的数据都来自已有的数据库，如果没有的话也可以交给很多爬虫工程师去采集，来提供。也可以来自平时的记录，反正数据无处不在，大都是可用的。

数据的类型

按照机器学习的数据分类我们可以将数据分成：标称型：标称型目标变量的结果只在有限目标集中取值，如真与假(标称型目标变量主要用于分类)

数值型：数值型目标变量则可以从无限的数值集合中取值，如0.100，42.001等 (数值型目标变量主要用于回归分析)

按照数据的本身分布特性离散型

连续型

那么什么是离散型和连续型数据呢？首先连续型数据是有规律的,离散型数据是没有规律的离散变量是指其数值只能用自然数或整数单位计算的则为离散变量.例如，班级人数、进球个数、是否是某个类别等等

连续型数据是指在指定区间内可以是任意一个数值,例如，票房数据、花瓣大小分布数据

数据的特征抽取

现实世界中多数特征都不是连续变量，比如分类、文字、图像等，为了对非连续变量做特征表述，需要对这些特征做数学化表述，因此就用到了特征提取. sklearn.feature_extraction提供了特征提取的很多方法

分类特征变量提取

我们将城市和环境作为字典数据，来进行特征的提取。

sklearn.feature_extraction.DictVectorizer(sparse = True)

将映射列表转换为Numpy数组或scipy.sparse矩阵sparse 是否转换为scipy.sparse矩阵表示，默认开启

方法

fit_transform(X,y)

应用并转化映射列表X，y为

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。