机器学习（一）相关数学概念

文章目录

一、数学相关重要概念
二、数据分布
- (1) 标准正态分布
- (2) 散点图
三、缩放
- 标准化方法
- - （1）Min-max 标准化
  - （2）零-均值规范化（z-score标准化）

一、数学相关重要概念

(1) 均值 — 平均值可用numpy 进行求解

import numpy

x = [1,2,3,4,5,3]
x_avg = numpy.mean(x)
print(x_avg)

(2) 中值 — 对于所有值排序后的中间值

import numpy

x_mid = numpy.median(x)
print(x_mid)

(3) 众数 — 出现次数最多的数

from scipy import stats

x_most = stats.mode(x)
print(x_most[0])

使用 numpy.unique（）亦可以

import numpy as np
array = np.array([1,2,3,4,4,5])
vals,counts = np.unique(array, return_counts=True)
index = np.argmax(counts)
print(vals[index])

(4) 标准差 — 又称为均方差，描述值得离散程度

低标准差表示大多数数字接近平均值；
高标准差表示这些值在更大的范围内；

import numpy

deta = numpy.std(x)

标准差公式：

(5) 方差 — 标准差的平方，表示值的分散程度

import numpy 

deta^2 = numpy.var(x)

方差公式：
在这里插入图片描述

(6) 百分位数 — 提供一个数字，描述了给定比例下小于的值

x = [1,2,3,4,5,6,7,5,4,3,1]

y = numpy.percentile(x,100) #百分之百的数都小于y
print(y)

y = 7  #100%

二、数据分布

(1) 标准正态分布

x = numpy.random.normal(5.0,1.0,1000) # 5.0 是平均值， 1.0 是标准差， 1000个数

import numpy
import matplotlib.pyplot as plt

x = numpy.random.normal(5.0,1.0,1000)# 5.0 是 平均值， 1.0 是标准差， 1000个数
plt.hist(x,100) #直方图
plt.show()

在这里插入图片描述

(2) 散点图

import numpy
import matplotlib.pyplot as plt
numpy.random.seed(2)


x = numpy.random.normal(3, 1, 100)

y = numpy.random.normal(150, 40, 100)/x


train_x = x[:80]
train_y = y[:80]

test_x = x[80:]
test_y = y[80:]

plt.scatter(x,y)
plt.plot(myline,mymodel(myline))
plt.show()