天池赛学习笔记——使用sklearn+机器学习进行分类/回归任务之(一)数据读取和分析

一、数据读取

在数据处理时,最常见的文件格式是.csv.txt我们主要使用pandas的read_csv来读取数据。
read_csv的文档网址为:http://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-read-csv-table

read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)

其参数众多,在这里只介绍常用的几个参数:

  • filepath_or_buffer: 读取csv或者txt文件的路径,URL等.
  • sep:指定分隔符,str,对于read_csv默认',';对于read_table,默认\t.
  • delimiter:定界符,备选分隔符,str,默认'None',若指定该参数,则sep参数失效.
  • header:int or list or ints,默认’infer’,第几行开始作为列名,以及开始读取数据, 第一行为列名则设置为'0',无列名则设置为'None'.Row number(s) to use as the column names, and the start of the data.
  • index_col:int or sequence or False,默认None,用作行索引的列编号或者列名,如果给定一个序列则有多个行索引.Column to use as the row labels of the DataFrame.
  • encoding:str, 默认'None',指定字符集类型,通常指定为'utf-8'.
  • names:array-like, 默认'None',要使用的列名,可替代原列名(如果有的话).list of column names to use. If file contains no header row, then you should explicitly pass header=None.

常见的定界符如下表:

符号匹配
\s任何空白字符
\t制表符
\f换页符
\r回车符
\n换行符
\v垂直制表符

代码示例:

import pandas as pd
filename = 'data.csv' #读取的文件名
names = ['a','b','c','d','e','f','g','h','class'] #每一列列名
data = pd.read_csv(filename,names=names) #读取数据,命名数据框为data

统计数据信息

话不多说,直接上代码.

print(data.shape) #显示维度,行*列
print(data.head(5)) #显示前5行
print(data.dtypes) #查看数据每一个字段的数据类型
print(data.describe()) #显示所有数据的条数,mean,std,min,25%分位数,50%分位数,75%分位数,max的信息
print(data.groupby('class').size()) #对于分类算法,查看每类样本的个数,观察正反例是否平衡
print(data.skew()) #所有数据属性的高斯偏离程度,结果显示了左偏还是右偏,0时代表偏差很小

数据可视化

data.plot(kind='density',subplots=True,layout=(3,3),sharex=False) #密度图

kind参数代表了可视化图的类型,主要类型有以下几种:

参数类型
'line'折线图
'bar'条形图
'hist'横向条形图
'box'柱状图
'kde'箱线图
'density'密度图
'pie'饼图
'scatter'散点图
'kde'Kernel的密度估计图
  • 相关矩阵图
    相关矩阵图是用来展现两个不同属性相互影响的程度,如果两个属性朝着相同方向变化,那么是正向变化。

    import numpy as np
    import matplotlib.pyplot as plt 
    
    corr = data.corr() #获得相关系数
    figure = plt.figure()
    ax = figure.add_subplot(111)
    cax = ax.matshow(corr, vmin=-1, vmax=1)
    figure.colorbar(cax)
    ticks = np.arange(0, 8, 1)
    ax.set_xticks(ticks)
    ax.set_yticks(ticks)
    ax.set_xticklabels(names)
    ax.set_yticklabels(names)
    plt.show()
    

    以我读入的数据为例,画图的图像如下:

相关矩阵图示例

  • 散点矩阵图
    考察多个变量的相关关系时,一一绘制比较麻烦,散点图矩阵绘制了各个变量间的散点图.
    代码示例:
    from pandas.plotting import scatter_matrix
    scatter_matrix(data)
    

接下来的几篇博文将介绍数据集划分、数据预处理、特征工程、分类回归算法和模型评估。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 阿里天池是一个非常有名的数据科学竞平台,其中机器学习是其中的一个重要组成部分。在这个竞中,参者需要使用机器学习算法来解决各种各样的问题,例如图像识别、自然语言处理、推荐系统等等。 机器学习的解题过程通常包括以下几个步骤: 1. 数据处理:参者需要对提供的数据进行清洗、特征提取、数据转换等操作,以便于后续的建模和训练。 2. 模型选择:参者需要选择适合当前问题的机器学习算法,并对其进行调参和优化。 3. 模型训练:参者需要使用训练数据对模型进行训练,并对训练过程进行监控和调整。 4. 模型评估:参者需要使用测试数据对模型进行评估,以确定其在实际应用中的性能表现。 5. 结果提交:参者需要将最终的模型结果提交到竞平台上进行评估和排名。 在机器学习中,成功的关键在于对问题的深入理解和对机器学习算法的熟练掌握。同时,参者还需要具备良好的团队合作能力和沟通能力,以便于在竞中取得更好的成绩。 ### 回答2: 阿里天池是一个非常受欢迎的机器学习平台,它汇集了大量来自世界各地的数据科学家,分享了一系列有趣的竞和可用的数据集,供参选手使用机器学习篇中,我们将解析一些常见的阿里天池题目,让大家对机器学习有更深入的了解。 一、题选取 阿里天池题通常与商业、医疗等复杂领域相关,选择数据集时要了解行业背景和数据质量,以准确地判断模型的准确性和适用性。此外,在选择题时,还要考虑与参选手一起合作的可能性,以及他们可能使用的算法和技术。因此,为了成功解决题,参者应当仔细研究题目的背景、数据分析目标等内容,有助于更好地理解问题及其解决方案。 二、数据清洗 参者在使用数据时,需要对其进行实质性的预处理和清洗工作,以减少不准确的数据对结果的影响。预处理和清洗包括基本的数据处理,例如缺失值、异常值和重复值的处理,还需要利用可视化和探索性数据分析等技术来检查数据的分布情况、相互关系和异常值等问题。 三、特征选择 在构建模型之前,参选手必须确定哪些特征会对问题的解决产生实际影响。这个过程称为特征选择,它旨在通过保留最相关的特征来减少模型复杂性,提高准确性,并且还有助于减少数据集的维数。特征选择包括基于统计学和机器学习的算法,同时应该考虑特征的相关性和重要性。 四、建模和评估 参者在解决问题时,需要考虑使用何种算法,以及如何构建对应的模型。此外,还需在不同的算法和模型之间进行比较,并选择最优模型。最后,应该针对模型进行评估,以确保各种重要性能指标(例如准确性,召回率,精确度等)都得到最佳表现。 总的来说,机器学习是一种复杂而令人兴奋的技术,参者要考虑数据质量、数据清洗、特征选择、建模和评估等诸多因素。通过参加阿里天池,大家可以不断学习和练习,不仅提升自己的技能,同时还有机会获得丰厚的奖励。 ### 回答3: 阿里天池是一个集数据、人才选拔、行业交流、技术分享、产学研合作等多种功能于一体的大型平台。其中,机器学习篇的题挑战包括了各种典型机器学习场景,旨在挖掘数据中价值,提高数据应用和解决实际问题的能力。 在机器学习篇的题中,常见的任务包括分类回归、聚类、推荐等,其中分类问题是最常见的任务之一。分类可以分为二分类、多分类、超大规模分类等多个子类型。对于分类问题,大家需要学习分类算法,如KNN、NB、SVM、LR、GBDT、XGBoost等,并熟悉如何调参等技巧。 回归问题主要是根据给定的样本数据,预测一个连续的数值。回归问题旨在找到独立变量(X)和连续依赖变量(Y)之间的关系,以便使用该模型来预测连续依赖变量的值。对于回归问题,大家需要掌握线性回归、岭回归、Lasso回归、ElasticNet回归等算法。 聚类问题是将相似的数据划分到同一类别中,相似度较高,不同类别之间相似度较低。对于聚类问题,大家需要学习如何使用K-means、DBSCAN、Hierarchical聚类算法。 推荐问题是根据用户的行为习惯,预测用户的需求,以便将相应的内容推荐给用户。推荐问题的数据通常包括用户的行为、物品的属性和用户的评分。推荐问题常用的算法包括CF、ALS、LFM等。除此之外,还有深度学习在图像识别、语音识别、自然语言处理、推荐、游戏AI等方面具有广泛的应用,如CNN、RNN、LSTM、GAN等。 总之,机器学习篇的题挑战涉及到各种典型机器学习算法和应用场景,需要大家掌握基础理论和实践技巧,并多参加实战项目和比练习,不断提升自己的能力和水平。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值