机器学习数据分析笔记
文章平均质量分 76
机器学习入门
小零呦
这个作者很懒,什么都没留下…
展开
-
机器学习数据分析——数据特征选定
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。因此,特征过程的本质就是一项工程活动,目的是最大限度地从原始数据中提取合适的特征,以供算法和模型使用。特征处理是特征工程的核心部分,scikit-leam提供了较为完整的特征处理方法,包括数据预处理、特征选择、降维等。以下介绍四个数据特征选择的方法:单变量特征选定、递归特征消除、主要成分分析、特征的重要性。特征选定特征选定是一个流程,能够选择有助于提高预测结果准确度的特征数据,或者有助于发现我们感兴趣的输出结果的特征数据。如果数据中包含无原创 2021-05-13 16:51:08 · 1066 阅读 · 0 评论 -
机器学习——数据预处理
数据预处理需要根据数据本身的特性进行,有不同的格式和不同的要求,有缺失值的要填,有无效数据的要剔,有冗余维的要选,这些步骤都和数据本身的特性紧密相关。数据预处理大致分为三个步骤:数据的准备、数据的转换、数据的输出。数据处理是系统工程的基本环节,也是提高算法准确度的有效手段。因此,为了提高算法模型的准确度,在机器学习中也要根据算法的特征和数据的特征对数据进行转换。这里将利用scikit-learn来转换数据,以便我们将处理后的数据应用到算法中,这样也可以提高算法模型的准确度。主要介绍以下几种数据转换方法:调原创 2021-05-13 10:53:28 · 1076 阅读 · 0 评论 -
机器学习——数据可视化Matplotlib
单一图表直方图直方图(Histogram)又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据的分布情况。一般用横轴表示数据类型,纵轴表示分布情况。直方图可以非常直观地展示每个属性的分布状况。通过图表可以很直观地看到数据是高斯分布、指数分布还是偏态分布。from pandas import read_csv import matplotlib.pyplot as plt filename = 'pima data.csv' names = ['preg', 'plas','原创 2021-05-12 17:40:33 · 522 阅读 · 0 评论 -
机器学习入门/最简单的机器学习项目——茸尾花(Iris Flower )分类
机器学习机器学习项目步骤( 1 )导入数据。( 2)概述数据。( 3)数据可视化。( 4)评估算法。( 5)实施预测。导入数据#导入类库from pandas import read_csv from pandas.plotting import scatter_matrix from matplotlib import pyplot from sklearn.model_selection import train_test_splatfrom sklearn.model_select原创 2021-05-12 11:23:58 · 425 阅读 · 0 评论 -
机器学习基础Numpy | Matplotlib | Pandas
Numpy1.创建数组通过给array函数传递Python的序列对象创建数组,如果传递的是多层嵌套的序列,将创建多维数组。import numpy as np #创建数组myarray = np.array([1, 2, 3]) print(myarray) print(myarray.shape) #创建多维数组myarray = np.array([[1, 2, 3], [2, 3, 4], [3, 4, 5]]) print(myarray) print(myarray.shape原创 2021-05-12 12:31:05 · 218 阅读 · 0 评论 -
机器学习——数据理解
为了得到更准确的结果,必须理解数据的特征、分布情况,以及需要解决的问题,以便建立和优化算法模型。以下介绍七种方法来理解数据:1.简单地查看数据。2.审查数据的维度。3.审查数据的类型和属性。4.总结查看数据分类的分布情况。5.通过描述性统计分析数据。6.理解数据属性的相关性。7.审查数据的分布状况。1.简单地查看数据对数据的简单审视,是加强对数据理解最有效的方法之一。通过对数据的观察,可以发现数据的内在关系。这些发现有助于对数据进行整理。from pandas import read c原创 2021-05-12 17:18:13 · 1020 阅读 · 0 评论 -
机器学习——数据导入/CSV文件导入
在训练机器学习的模型时,数据通常会以csv的格式来存储,将csv数据导入到Python中的方法大概有三种:1.通过标准的Python库导入csv文件。2.通过NumPy导入csv文件。3.通过Pandas导入csv文件。CSV文件csv文件是用逗号(,)分隔的文本文件1.文件头如果csv的文件里包括文件头的信息,可以很方便地使用文件头信息来设置读入数据字段的属性名称。如果文件里不含有文件头信息,需要自己手动设定读入文件的字段属性名称。数据导入时,设置字段属性名称,有助于提高数据处理程序的可读性原创 2021-05-12 15:06:59 · 4132 阅读 · 1 评论