机器学习学习笔记(一)之数据集

一、学习阶段可用的数据集:

1、Kaggle网址:https://www.kaggle.com/datasets
特点:大数据竞赛平台/真实数据/数据量巨大

2、UCI数据集网址:http://archive.ics.uci.edu/ml/index.php
特点:收录了500余个数据集/覆盖科学、生活、竞技领域/数据量几十万

3、scikit-learn网址:https://scikit-learn.org/stable/datasets/index.html#datasets
特点:数据量较小/方便学习

二、Scikit-learn工具介绍

  • Python语言的机器学习工具
  • Scikit-learn包括许多知名的机器学习算法的实现
  • Scikit-learn文档挖秦山,容易上手,丰富的API

安装:pip install sklearn

三、Scikit-learn包含的内容

  • 分类 Classifcation
  • 回归 Regression
  • 聚类 Clustering
  • 降维 Dimensionality reduction
  • 模型选择 Model selection
  • 特征工程 Preprocessing

四、 sklearn数据集

1、scikit-learn数据集API介绍

  • sklearn.datasets
    加载获取流行数据集
代码
datasets.load_*()获取小规模数据集,数据包含在datasets里
datasets.fetch_*(data_home=None)获取大规模数据集,需要从网络上下载
data_home表示数据集下载目录,默认是~/scikit_learn_data/

2、sklearn小数据集

  • sklearn.datasets.load_iris()
    加载并返回鸢尾花数据集
名称数量
类别3
特征4
样本数量150
每个类别数量50
  • sklearn.datasets.load_boston()
    加载并返回波士顿房价数据集
名称数量
目标类别5-50
特征13
样本数量506

3、sklearn大数据集

  • sklearn.datasets.fetch_20newsgroups(data_home = None,subset=‘train’)
    subset:‘train’或者’test’,‘all’,可选。选择要加载的数据集
    训练集的‘’训练‘’,测试集的‘’测试‘’,两者的“全部”。

4、sklearn数据集的使用

在这里插入图片描述
sklearn数据集返回值介绍

  • load和fetch放回的数据类型datasets.base.Bunch (继承自字典)
    (dict[‘key’] = values 或者 bunch.key = values)
    data:特征数据组数,是[n_samples*n_features]的二维numpy.ndarray数组
    target:标签数组,是n_samples的一维numpy.ndarray数组
    DESCR:数据描述
    feature_names:特征名,新闻数据,手写数字、回归数据集没有
    target_names:标签名
from sklearn.datasets import load_iris
# 获取鸢尾花数据集
iris = load_iris()
print('鸢尾花数据集的返回值:\n',iris)
# 返回值是一个继承自字典的Bunch
print('鸢尾花的特征值:\n',iris['data'])
print('鸢尾花的目标值:\n',iris.target)
print('鸢尾花特征的名字:\n',iris.feature_names)
print('鸢尾花目标值的名字:\n',iris.target_names)
print('鸢尾花的描述:\n',iris.DESCR)

五、数据集的划分

机器学习一般的数据集会划分为两个部分

  • 训练数据:用于训练,构建模型
  • 测试数据:在模型检验时使用,用于评估模型是否有效

划分比例:

  • 训练集:70%,80%,75%
  • 测试集:30%,20%,25%

数据集划分api:

  • sklearn.model_selection.train_test_split(arrays,‘options’)
    x数据集的特征值
    y数据集的标签值
    test_size测试集的大小,一般为float
    random_state随机数种子,不同的种子会造成不同的随机采样结果,相同的种子采样结果相同
    return训练集特征值,测试集特征值,训练集目标值,测试机目标值
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

def datasets_demo():
	"""
	对鸢尾花数据集的展示
	:return: None
	"""
	# 1.获取鸢尾花数据集
	iris = load_iris()
	print('鸢尾花数据集的返回值:\n',iris)
	# 返回值是一个继承自字典的Bunch
	print('鸢尾花的特征值:\n',iris['data'])
	print('鸢尾花的目标值:\n',iris.target)
	print('鸢尾花特征的名字:\n',iris.feature_names)
	print('鸢尾花目标值的名字:\n',iris.target_names)
	print('鸢尾花的描述:\n',iris.DESCR)
	
	# 2.对鸢尾花数据集进行分割
	# 训练集的特征值x_train 测试集的特征值 x_test 训练集的目标值y_train 测试集的目标值y_test
	x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.2,random_state=22)
	# test_size:测试集范围
    # 这里的random_state就是为了保证程序每次运行都分割一样的训练集和测试集。否则,同样的算法模型在不同的训练集和测试集上的效果不一样。
	print('训练集的特征值:\n',x_train,x_train.shape)
	return None

if __name__ = '__main__':
	datasets_demo()
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 《机器学习学习笔记.pdf》是一本关于机器学习学习笔记的电子书,其内容涵盖了机器学习的基本概念、算法原理和实践应用等方面。 该电子书的主要内容包括但不限于以下几个方面: 1. 机器学习基础:介绍了机器学习的基本概念、发展历史和核心原理,帮助读者建立起对机器学习的整体认识和理解。 2. 机器学习算法:详细介绍了常见的机器学习算法,包括监督学习算法(如线性回归、逻辑回归、决策树、支持向量机等)、无监督学习算法(如聚类算法、降维算法等)和强化学习算法等,使读者能够了解和掌握不同类型的机器学习算法及其应用场景。 3. 机器学习实践:讲解了机器学习的实践方法和流程,涵盖了数据预处理、特征工程、模型选择和评估等方面的内容,帮助读者掌握如何在实际问题中应用机器学习技术。 4. 应用案例:通过实际案例的介绍和分析,展示了机器学习在自然语言处理、计算机视觉、推荐系统等领域的应用,激发读者对机器学习在实际问题中的应用的兴趣和思考能力。 通过阅读《机器学习学习笔记.pdf》,读者可以系统地学习机器学习的基础知识和算法原理,了解机器学习的应用场景和实践方法,并通过实际案例的分析加深对机器学习技术的理解。这本电子书可以作为机器学习初学者的入门学习资料,也适合有一定机器学习基础的读者作为参考和进一步学习的资料。希望通过这本电子书的阅读,读者能够理解和掌握机器学习的相关知识,为未来在机器学习领域的学习和研究打下坚实的基础。 ### 回答2: 《机器学习学习笔记.pdf》是一本介绍机器学习学习资料。机器学习是一种通过利用数据来训练计算机算法的方法,使其能够自动地从数据学习和提高性能。这本学习笔记涵盖了机器学习的基本概念、原理和方法,适合初学者和对机器学习感兴趣的读者。 首先,学习笔记机器学习的基本概念入手,包括机器学习的定义、应用领域以及机器学习的三个主要任务:监督学习、无监督学习和强化学习。然后,详细介绍了机器学习的基本原理,如训练集、测试集、特征选择和模型评估等。此外,学习笔记还介绍了几种常见的机器学习算法,如决策树、支持向量机和深度学习等。 除了理论知识,学习笔记还提供了实践案例和代码示例,帮助读者更好地理解和应用机器学习算法。读者可以通过实践案例来掌握机器学习算法的具体应用,并且可以利用代码示例进行实际编程实践。同时,学习笔记还讨论了机器学习的一些挑战和未来的发展方向,如数据质量、模型解释性和自动化机器学习等。 总的来说,《机器学习学习笔记.pdf》是一本全面介绍机器学习学习资料。它结合理论和实践,旨在帮助读者建立对机器学习的基本理解,并具备在实际问题中应用机器学习算法的能力。无论是初学者还是有一定机器学习基础的读者,都可以从中获得有益的知识和经验。 ### 回答3: 《机器学习学习笔记.pdf》是一本关于机器学习学习笔记文档。机器学习是人工智能领域的重要分支,它研究如何使计算机系统自动从数据学习和改进,以完成特定任务。这本学习笔记以简洁明了的方式介绍了机器学习的基本概念、算法和实践应用。 笔记中首先介绍了机器学习的基础知识,包括监督学习、无监督学习和强化学习等不同的学习类型。然后详细讲解了常用的机器学习算法,如线性回归、逻辑回归、决策树、支持向量机等。每种算法都给出了清晰的定义和示例,并详细解释了算法的原理和应用场景。 此外,《机器学习学习笔记.pdf》还包括了机器学习的实践应用和案例分析。它介绍了如何通过Python等编程语言和机器学习库进行实际的机器学习项目开发,包括数据预处理、特征工程、模型训练和评估等环节。对于初学者来说,这部分内容非常有价值,可以帮助他们快速进入实际应用的阶段。 总结来说,《机器学习学习笔记.pdf》是一本很好的机器学习入门教材,它详细介绍了机器学习的基本概念和常用算法,并提供了实际项目的实践指导。无论是对于想要了解机器学习基础知识的初学者,还是对于已经有一定机器学习经验的开发者来说,这本学习笔记都是一本值得阅读和参考的资料。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值