2.4 探索数据

Lucid1024

已于 2022-01-23 21:19:08 修改

阅读量830

点赞数

分类专栏：机器学习文章标签：机器学习

于 2022-01-22 10:37:09 首次发布

本文链接：https://blog.csdn.net/Lucid1024/article/details/122633803

版权

创建副本

导数据：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

path='D:/python机器学习/数据/housing.csv'
f=open('D:/python机器学习/数据/housing.csv')
housing=pd.read_csv(f)

housing['income_cat']=pd.cut(housing['median_income'],bins=[0.,1.5,3.0,4.5,6.,np.inf],labels=[1,2,3,4,5])

from sklearn.model_selection import StratifiedShuffleSplit
split=StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
for train_index, test_index in split.split(housing, housing['income_cat']):
    strat_train_set=housing.loc[train_index]
    strat_test_set=housing.loc[test_index]

查看训练集：

strat_train_set.info()

创建训练集副本：

housing=strat_train_set.copy()

可视化数据

kind='scatter'

housing.plot(kind='scatter',x='longitude

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Lucid1024

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

数据挖掘-数据探索

走向DT

04-27

4586

数据探索根据观测、调查收集到初步的样本数据集后，接下来要考虑的问题是：样本数据集的数量和质量是否满足模型构建的要求？有没有出现从未设想过的数据状态？其中有没有什么明显的规律和趋势？各因素之间有什么样的关联性？数据探索就是通过检验数据集的数据质量、绘制图表、计算某些特征量等手段，对样本数据集的结构和规律进行分析的过程。数据探索可以从数据质量分析和数据特征分

数据集探索

Lquartz的博客

05-12

402

文章目录数据集探索IMDB数据集基础文本分类任务数据集准备模型准备结果可视化THUCNews数据子集THUCnews数据集处理原始数据加载利用原始数据和词表生成训练数据训练模型并可视化数据集探索完整代码在github: IMDB和THUCNews IMDB数据集 IMDB数据集是一个大规模影评数据集, 其中25K条有标注数据用于训练, 25K条有标注数据用于测试. 使用TensorFlow...

参与评论您还未登录，请先登录后发表或查看评论

探索不同的数据集

张峰的博客

02-19

334

Power BI工具提供了许多探索数据集的选项。在处理BI报告或仪表板时，可以使用Power BI查找快速洞察。导航到工具UI左侧的数据集部分，单击3个点（...）并单击“获取数据洞察”。当您选择“获取洞察”选项时，它会运行数据集中的所有算法，一旦完成，您将收到一条通知，告知您已为数据集准备好洞察力。您可以单击“查看数据”选项，该工具将显示数据洞察的所有图表表示。您可以随时转...

Python基础：数据集探索

最新发布

weixin_62134940的博客

12-11

471

获取某个数据集，进行数据探索，基于该数据集针对某个问题的结论最终以图表展示。具体包括：（1）目的、样本与特征描述；（2）基本描述性统计信息（均值、方差、中位数、分位数等）或分布描述信息（散点图、箱体图等）；（3）针对问题的结论呈现。

使用Spark 2.4实现数据分析与挖掘

# 1. 引言 ## 1. 介绍数据分析与挖掘的重要性数据分析与挖掘在现代社会中扮演着重要的角色。随着互联网技术的迅猛发展，我们正处在一个数据爆炸的时代，海量的数据涌入我们的... Spark 2.4作为数据处理和分析的强大

jeecgboot2.4数据可视化与图表展示实战

jeecgboot2.4数据可视化介绍 ## 1.1 什么是jeecgboot2.4 JeecgBoot2.4 是一款基于代码生成器的低代码开发平台，适用于企业信息化和管理系统快速搭建，其核心特点包括高效、低代码、高质量、多终端支持等。Jeecg...

ILSPY2.4 工具

06-14

要体验ILSpy 2.4的功能，可以下载`ILSpy_Master_2.4.0.1963_Binaries`这个压缩包，解压后运行程序，开始探索.NET程序集的内部世界。对于开发者而言，ILSpy是一个强大的工具，无论是进行代码逆向工程还是学习.NET技术...

MultiWiiV2.4源码

12-24

《MultiWiiV2.4源码解析与探讨》 MultiWiiV2.4源码，作为一款开源的飞行控制系统，是无人机爱好者和开发者的重要资源。...如果你对无人机控制感兴趣，那么深入研究MultiWiiV2.4源码无疑是一次充满价值的探索之旅。

NLP实践-数据集探索

weixin_40275300的博客

03-03

716

1、THUCNews 1.1 数据集介绍本数据集是清华NLP组提供的THUCNews新闻文本分类数据集的一个子集（原始的数据集大约74万篇文档，训练起来需要花较长的时间）。本次训练使用了其中的10个分类（体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐），每个分类6500条，总共65000条新闻数据。数据集划分如下： cnews.train.txt: 训练集(...

任务2 数据集探索

a2507283885的博客

04-06

724

Moielens-1M数据集描述数据集下载地址：Movielens-1M 下载下来数据集有4个文件，其中1个描述文件，3个数据文件。 1. ratings.dat 文件当中包含了所有的打分数据。数据的格式如下特征名称 UserID MovieID Rating Timestamp 描述从1到6040 从1到3952 最高分为5分，且打分只能为整数打分的时间戳（一般没啥用）数据集当中每个用户至少有20个打分记录 2. users.data 里面包含贡献这些打分数据的志愿者

机器学习笔记 - 探索 keras 数据集

学以致用知行合一

06-06

1061

数据集对于功能性机器学习模型至关重要。拥有一个好的可用数据集可能是您的 ML 项目成功或失败的主要因素。特别是当您不熟悉机器学习以及创建模型以进行学习时尤其如此。这就是 Keras 深度学习框架包含一组标准数据集的原因。可以帮助用户确认算法或者模型，今天，我们将更详细地了解这些数据集。我们单独探索数据集，详细查看数据，尽可能可视化内容。此外，我们将尝试找出这些数据集可能对您的学习轨迹有用的一些用例。为了让对机器学习感兴趣的人能够顺利开始，Keras 在框架的上下文中提供了

如何探索一个数据集的有趣特征，具体一些

weixin_42594419的博客

02-19

426

要探索一个数据集的有趣特征，可以先进行数据可视化，比如画出数据的直方图、柱状图等，以及做出散点图，以便更直观地查看数据的分布和特征。此外，还可以分析数据的相关性、数据的统计特征，以及使用机器学习算法来发现数据的潜在特征等。 ...

Hands-on Machine Learning 第二章分层抽样代码纠错

weixin_57811191的博客

05-11

150

解决方法是将输入的income_cat 列转换为一维数组或者列表。可以使用 Pandas 中的 Series 类型的 values 属性来实现。报错为：TypeError: object of type 'CategoricalDtype' has no len()

pandas 统计函数[corr，scatter_matrix]