干货|机器学习傻瓜教程

最新推荐文章于 2024-07-24 20:39:13 发布

向北的小北

最新推荐文章于 2024-07-24 20:39:13 发布

阅读量263

点赞数

分类专栏：机器学习文章标签：机器学习新手上路

本文链接：https://blog.csdn.net/m0_37803230/article/details/89218820

版权

这篇博客介绍了机器学习的基础知识，包括数据预处理库（numpy, pandas, matplotlib）的使用，数据导入、清洗、组合、特征处理的方法。详细讲解了如何处理重复值、缺失值，并探讨了字符串特征的处理。此外，还涉及到了训练集/验证集划分、特征缩放以及KNN（k-NearestNeighbor）算法的概念，适合机器学习新手入门。" 111397832,10273415,JavaScript编程习题解析与实战,"['JavaScript', '前端开发', '编程挑战']

摘要由CSDN通过智能技术生成

零零总总的也看了很多机器学习的教程、书籍和视频，因为实际操作覆盖的比较少，转头就忘了。写个博客把机器学习的入门内容记录一下。方便后续查询使用。

库导入

机器学习过程中用到的库大体可以分为两类：

数据清洗&预处理库

此部分一般使用python中最基本的三个库：
1）numpy
Numpy 是满足所有数学运算所需要的库，由于代码是基于数学公式运行的
2）pandas
Pandas 则是最好的导入并处理数据集的一个库
3）matplotlib（主要是Matplotlib.pyplot）
Maplotlib（具体而言，Matplotlib.pyplot）则是满足绘图所需要的库

可通过以下的语句进行导入：
在这里插入图片描述
as是进行了重命名，方便快速调用。

机器学习算法模型库

sklearn

数据导入

拿到项目或题目的第一步是获取数据，根据数据来源/数据格式的不同采用以下方法：

数据为csv格式

在kaggle和各大竞赛平台，数据一般都是通过csv格式文件进行传递的。
pandas存在read_csv函数可实现将csv文件读入dataframe
在这里插入图片描述
read_csv的参数较多，此处仅使用几个常用的：

filepath_or_buffer：文件路径。ps.貌似在python 3.6版本此处只能给出文件名，不能给出文件路径。
sep ：分隔符，str, default ‘,’
header :：指定列名称为哪行，默认为第一行。int or list of ints, default ‘infer’
names ：指定列名称，若hearder设置为None，此处生效。array-like, default None
index_col ：用作行索引的列编号或者列名，如果给定一个序列则有多个行索引。 int or sequence or False, default None

对此函数的官方说明：
http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html#pandas.read_csv
中文版解释：
https://www.cnblogs.com/datablog/p/6127000.html

查看数据概况

查看数据特征

在这里插入图片描述
查看数据都有哪些特征

数据组合

有时因为数据量，会将数据划分为好几个文件进行存储。读取数据时，依次读取完几个文件后，需要对数据进行拼接组合。

例如在小象学院的一个练习中，存在以下4份数据

最低0.47元/天解锁文章

向北的小北

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
干货|机器学习傻瓜教程

快速完成一次机器学习建模（新手入门）欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导...
复制链接

扫一扫

专栏目录