如何用python进行相关性分析_使用Python进行相关分析学习

本文介绍了机器学习的基础概念,包括特征、标签、训练数据和测试数据。接着,详细讲解了简单线性回归,包括相关系数、最佳拟合线的计算,并用Python展示了相关性分析和线性回归的实现过程。最后,提到了逻辑回归在二分类问题中的应用。
摘要由CSDN通过智能技术生成

一、机器学习入门的几个简单概念

1、定义

根据维基百科定义,机器学习定义为“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。”

一般来说,各大app的内容推荐就是机器学习中的一种。这些软件通过获取我们听歌的曲风、时长、节奏或者浏览的物品类别、评价好坏等来获取我们的一些使用习惯,把这些使用习惯统称为特征,这些特分别具有对应的标签;然后后台会将获取来的数据(特征和标签)进行机器学习,得出一个模型,当我们再次登陆这类软件时,后台则会向我们推送我们可能感兴趣的内容。此外,后台获取的数据越多,模型的准确性越高,推荐的内容更符合我们口味。

2、机器学习的步骤

机器学习的具体步骤:提出问题、理解数据、数据清洗、构建模型、评估。

3、特征与标签

比如我们要分析人们对某首歌的喜恶。

特征:特征就是数据的属性,如一首歌的诸多特征:语言、节奏、风格、时长等,也就是我们输入的数据。

标签:标签是我们对数据的预测结果,对一首歌的喜恶就是标签,标签就是机器学习算法的输出结果。

4、训练数据、测试数据

训练数据(train dataset)指的是,你拿来建模型的数据,拟合数据用。

验证数据(valid dataset)指的是,你拿来挑模型的数据,因为训练数据可以训练很多个模型,你用验证数据来挑一个最好的。

测试数据(test dataset)是指,你挑完最好的了,要看你模型的泛化能力,就要用到这个验证数据了。

原则上,当你的模型在三个数据集上的表现差不多时,就说明你的模型比较稳健(robust)。当然,大多数情况都会有点过拟合,也就是在训练数据很好,在验证数据一般,在测试数据比较糟糕。

二、简单线性回归

1、几个基础概念

简单线性回归:根据数据,采用一定统计方法来建立一个表示变量之间相互关系的方程,这一统计方法称为回归分析。而最简单类型的回归分析只包括一个自变量和一个因变量,二者之间的关系可以用一条直线来近似表示,即简单线性回归。

协方差:公式为cov(X,Y)=E[(X-E[X])(Y-E[Y])]。功能:1)统计量的正负可表示相关性方向;2)统计量大小表示相关性的大小。

相关系数:公式为相关系数r=cov(X,Y)/

equation?tex=%5Csigma_%7BX%7D *

equation?tex=%5Csigma_%7BY%7D ;功能:1)统计量的正负可表示相关性方向 ;2)统计量每单位的相关性大小,消除了量级的影响。

最佳拟合线:在散点图上画一条穿过这些点的直线,使这条线尽量接近各个点。你无法令这条直线穿过每一个点,不过,若存在线性相关性,则应该可以保证每一个点合理地接近你所绘制的直线。能最好地接近所有数据点的线被称为最佳拟合线。我们称之为回归方程y=a+bx,其中a为截距,b为回归系数。

相关性是变量之间的数学关系,但并不意味着一个变量一定与另一个变量为因果相关。

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值