干货|机器学习傻瓜教程

这篇博客介绍了机器学习的基础知识,包括数据预处理库(numpy, pandas, matplotlib)的使用,数据导入、清洗、组合、特征处理的方法。详细讲解了如何处理重复值、缺失值,并探讨了字符串特征的处理。此外,还涉及到了训练集/验证集划分、特征缩放以及KNN(k-NearestNeighbor)算法的概念,适合机器学习新手入门。" 111397832,10273415,JavaScript编程习题解析与实战,"['JavaScript', '前端开发', '编程挑战']
摘要由CSDN通过智能技术生成


零零总总的也看了很多机器学习的教程、书籍和视频,因为实际操作覆盖的比较少,转头就忘了。写个博客把机器学习的入门内容记录一下。方便后续查询使用。

库导入

机器学习过程中用到的库大体可以分为两类:

数据清洗&预处理库

此部分一般使用python中最基本的三个库:
1)numpy
Numpy 是满足所有数学运算所需要的库,由于代码是基于数学公式运行的
2)pandas
Pandas 则是最好的导入并处理数据集的一个库
3)matplotlib(主要是Matplotlib.pyplot)
Maplotlib(具体而言,Matplotlib.pyplot)则是满足绘图所需要的库

可通过以下的语句进行导入:
在这里插入图片描述
as是进行了重命名,方便快速调用。

机器学习算法模型库

sklearn

数据导入

拿到项目或题目的第一步是获取数据,根据数据来源/数据格式的不同采用以下方法:

数据为csv格式

在kaggle和各大竞赛平台,数据一般都是通过csv格式文件进行传递的。
pandas存在read_csv函数可实现将csv文件读入dataframe
在这里插入图片描述
read_csv的参数较多,此处仅使用几个常用的:

filepath_or_buffer:文件路径。ps.貌似在python 3.6版本此处只能给出文件名,不能给出文件路径。
sep :分隔符,str, default ‘,’
header ::指定列名称为哪行,默认为第一行。int or list of ints, default ‘infer’
names :指定列名称,若hearder设置为None,此处生效。array-like, default None
index_col :用作行索引的列编号或者列名,如果给定一个序列则有多个行索引。 int or sequence or False, default None

对此函数的官方说明:
http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html#pandas.read_csv
中文版解释:
https://www.cnblogs.com/datablog/p/6127000.html

查看数据概况

查看数据特征

在这里插入图片描述
查看数据都有哪些特征
在这里插入图片描述

数据组合

有时因为数据量,会将数据划分为好几个文件进行存储。读取数据时,依次读取完几个文件后,需要对数据进行拼接组合。

例如在小象学院的一个练习中,存在以下4份数据

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值