机器学习2----第一天

最新推荐文章于 2023-08-15 17:18:32 发布

qq_43498494

最新推荐文章于 2023-08-15 17:18:32 发布

阅读量388

点赞数

分类专栏：机器学习2

本文链接：https://blog.csdn.net/qq_43498494/article/details/106099591

版权

本文介绍了机器学习的基本概念，强调了数据集的重要性。数据通常以文件形式如CSV存储，避免使用数据库因读取速度和格式问题。讨论了数据集的结构，包括特征和目标值，并提到数据处理工具pandas。特征处理中，不删除重复值，特征抽取涉及将文本和字典数据转换为数字。最后提到了文本特征抽取，特别是中文文本处理和tf-idf在避免中性词影响中的作用。

摘要由CSDN通过智能技术生成

文章目录

机器学习概述

在这里插入图片描述

数据集的组成

在这里插入图片描述
格式不用mysql原因：
1、对于存储读取几M或几G文件数据时，读取速度慢。
2、格式不太符合机器学习要求的数据格式，还需要自己进一步处理数据格式。
所以一般企业中获取数据不在数据库中获取。
对于mongodb数据库，读取性能好，但是大多数都是以json格式，但是json格式又不太适合机器学习，所以数据还是得处理。

因此大多数数据以文件形式存储，如存储在csv文件中。

pandas读取存储数据非常快，它是基于numpy做的，而numpy速度很快。

python是动态性语言，有个全局解释器锁，当真正通过多线程进行操作时，如开启4个线程，但不是一起工作，而是每个时刻只有一个线程去工作。在机器学习这要认识到：我们这后边的才是真正的多线程，即4个线程并行工作，原因是numpy，之后所有库都是基于numpy的，numpy就是把GIL锁给释放了。
在这里插入图片描述

数据集的结构

可以用的现成

每个领域的数据基本都有
在这里插入图片描述

数据集常用的库网址

在这里插入图片描述

常用数据集的结构组成

特征值：机器学习的数据大多数是由特征组成的，但是不是所有的特征都是必要的，有一些可以删除，有一些可以做一些处理。
目标值：自己想做的事。
在这里插入图片描述

数据中对于特征的处理

在这里插入图片描述
当有重复值时，若有10个样本，还没学习好，则再把10个样本给他让他去学习，即又学习一些东西，所以在机器学习中不用对重复值进行处理。pandas就可以进行数据处理的工具，但只是处理一些简单的合并等简单操作，将数据处理好后，就可以进行机器学习了。

最低0.47元/天解锁文章

qq_43498494

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习2----第一天

文章目录机器学习概述数据集的组成数据集的结构可以用的现成数据集常用的库网址常用数据集的结构组成机器学习概述数据集的组成格式不用mysql原因：1、对于存储读取几M或几G文件数据时，读取速度慢。2、格式不太符合机器学习要求的数据格式，还需要自己进一步处理数据格式。所以一般企业中获取数据不在数据库中获取。对于mongodb数据库，读取性能好，但是大多数都是以json格式，但是json格式又不太适合机器学习，所以数据还是得处理。因此大多数数据以文件形式存储，如存储在csv文件中。panda
复制链接

扫一扫

专栏目录