一起学python-3发现群组-皮尔逊相关系数

本文探讨了皮尔逊相关系数的概念及其在数据挖掘中的应用。通过矩阵理论,解释了如何使用协方差和标准差来计算相关系数,并介绍了其在不同维度空间中的计算方式。相关系数衡量了变量间的线性相关性,取值范围在-1到1之间。文章还提到了其他距离度量方法,如欧氏距离和余弦相似度。
摘要由CSDN通过智能技术生成

这一章,我想了很久,其实我的认知也还是比较肤浅,本文权当抛砖引玉。

前三篇文章里面我们分别抓取了url数据、文章内容、分词生成bigtable,没有解释为什么我们要生成bigtable,而这个是本章需要说明的事情,而介绍人工智能、数据挖掘为什么用矩阵数据,这是一个大坑,就这点目前确实需要一起学习共进,尽量以通俗的语言阐述高深的数据理论知识。

先丢几篇前辈孟岩“矩阵三论”镇一下楼。

https://blog.csdn.net/myan/article/details/647511

https://blog.csdn.net/myan/article/details/649018

https://blog.csdn.net/myan/article/details/1865397

我们都知道计算机实现是利用高低电频来生成01,对于集成电路来说,它的世界只有01,01俩种模式就决定了计算机做事物处理无法直接做模糊化处理,类似于情感、感觉之类对于计算机来说是很难的一件事。同样在我们对物品进行描述,现行比较常用的方法是抽象出若干因子,定义每个因子值的标准,通过大量样板数据对同一事物进行统计,利用工具我们找出因子的集中区间,这个集中区间就是事物“特证”;比如一只猫,我们用脑袋想可能的因子有 脚的个数、眼睛、鼻子、胡子、嘴巴等等信息,这些信息每一个就是一个因子,这样就有若干的大因子了吧,其中每个因子可能还会有小因子,比如鼻子的点抽象出来就是若干的点。

在单因子的描述里(一维空间,线性空间),所有的对象都是一个点,点与点之间最直观的差异就是大小,除此之外,在线性上来看,没有多少区别,对于点与点之间的差距我们可以直接做减法,直接相减,若干点的集合构成了线段;在二维空间,每个对象都有俩个坐标轴来判断,比如一个三角形如下图,

可以描述为  

y  x

 5   6   记录点A

3    4   记录点B

2.5  2   记录点C

这样的一个数组,每一行表示一个二维空间的点,分别是纵坐标和横坐标,通过这样的一个集合我们可以描述一个三角形,对于这样的一个集合,在线性代数里面有个说法即是“矩阵”,是一个3*2维空间的矩阵,对于A 、B点的距离即回归到高中的课本知识,转换成下图的新的三角形ABE的,AB边距离

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值