(1)数据集描述
使用逻辑回归来识别手写数字(0到9)。 将我们之前的逻辑回归的实现,扩展到多分类的实现。 数据集是MATLAB的本机格式,要加载它到Python,我们需要使用一个SciPy工具。图像在martix X中表示为400维向量(其中有5,000个), 400维“特征”是原始20 x 20图像中每个像素的灰度强度, 类标签在向量y中作为表示图像中数字的数字类。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy.io import loadmat
data = loadmat('ex3data1.mat')
data
data['X'].shape, data['y'].shape
#((5000, 400), (5000, 1))
(2) 逻辑函数
def sigmoid(z):
return 1 / (1 + np.exp(-z))
(3)损失函数
def cost(theta, X, y, learningRate):
theta = np.matrix(theta)
X = np.matrix(X)
y = np.matrix(y)
first = np.multiply(-y, np.log(sigmoid(X * theta.T)))
second = np.multiply((1 - y), np.log(1 - sigmoid(X * theta.T)))