


** 线性回归的基本概念 **




  • 假设函数(Hypothesis Function)
  • 损失函数(Loss Function)
  • 优化算法(Optimization Algorithm)


假设函数是指,用数学的方法描述自变量和因变量之间的关系,它们之间可以是一个线性函数或非线性函数。 在本次线性回顾模型中,我们的假设函数为 $ \hat{Y}= aX_1+b $ ,其中,Y^\hat{Y}​Y​^​​表示模型的预测结果(预测房价),用来和真实的Y区分。模型要学习的参数即:a,b。




对于线性模型来讲,最常用的损失函数就是均方误差(Mean Squared Error, MSE)。






1 - 引用库


  • numpy:一个python的基本库,用于科学计算
  • matplotlib.pyplot:用于生成图,在验证模型准确率和展示成本变化趋势时会使用到
  • paddle.fluid:PaddlePaddle其中一种深度学习框架
  • pandas:一种基于NumPy的工具,高效处理数据

第一步,先运行!ls /home/aistudio/data/代码看自己的数据集在哪,如我的为data2054,在data2054里面有data_soil.txt


!ls /home/aistudio/data/


!ls /home/aistudio/data/data2054



import sys
import paddle
import paddle.fluid as fluid
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from paddle.utils.plot import Ploter  
from __future__ import print_function
from paddle.fluid.contrib.trainer import *
from paddle.fluid.contrib.inferencer import *



2.7.15 | packaged by conda-forge | (default, Feb 28 2019, 04:00:11) 
[GCC 7.3.0]

2 - 数据预处理 本次数据集使用的是某地区的土壤有机质含量和氮含量的数据。氮含量和有机质含量近似成线性关系,数据集只有两列,以TXT的形式储存。本次预测要得到的他们之间的线性关系。 当真实数据被收集到后,它们往往不能直接使用,需要进行预处理。我们首先以表格的形式输出数据的前五行看一下


colnames = ['有机质含量']+['氮含量']
print_data = pd.read_csv('/home/aistudio/data/data2054/data_soil.txt',names = colnames)


如果不确定某个组件下有哪些方法或者属性, 可以尝试使用.之后按下tab键. 这个tab键也可以提示方法或函数需要的参数

归一化 观察一下数据的分布特征,一般而言,如果样本有多个属性,那么各维属性的取值范围差异会很大,这就要用到一个常见的操作-归一化(normalization)了。归一化的目标是把各维属性的取值范围放缩到差不多的区间,例如[-0.5, 0.5]。这里我们使用一种很常见的操作方法:减掉均值,然后除以原取值范围。


# coding = utf-8 #
global x_raw,train_data,test_data
data = np.loadtxt('/home/aistudio/data/data2054/data_soil.txt',delimiter = ',')
x_raw = data.T[0].copy() 

maximums, minimums, avgs = data.max(axis=0), data.min(axis=0), data.sum(axis=0)/data.shape[0]
print("the raw area :",data[:,0].max(axis = 0))
feature_num = 2
for i in range(feature_num-1):   
    data[:,i]=(data[:,i]-avgs[i])/(maximums[i] - minimums[i])
print('normalization:',data[:,0].max(axis = 0))
the raw area : 85.67
normalization: 0.5386874418397725

数据集分割 将原始数据处理为可用数据后,为了评估模型的好坏,我们将数据分成两份:训练集和测试集。 训练集数据用于调整模型的参数,即进行模型的训练,模型在这份数据集上的误差被称为训练误差; 测试集数据被用来测试,模型在这份数据集上的误差被称为测试误差。 我们训练模型的目的是为了通过从训练数据中找到规律来预测未知的新数据,所以测试误差是更能反映模型表现的指标。分割数据的比例要考虑到两个因素:更多的训练数据会降低参数估计的方差,从而得到更可信的模型;而更多的测试数据会降低测试误差的方差,从而得到更可信的测试误差。我们这个例子中设置的分割比例为8:2。 定义reader 构造read_data()函数,来读取训练数据集train_set或者测试数据集test_set。它的具体实现是在read_data()函数内部构造一个reader(),使用yield关键字来让reader()成为一个Generator(生成器),注意,yield关键字的作用和使用方法类似return关键字,不同之处在于yield关键字可以构造生成器(Generator)。虽然我们可以直接创建一个包含所有数据的列表,但是由于内存限制,我们不可能创建一个无限大的或者巨大的列表,并且很多时候在创建了一个百万数量级别的列表之后,我们却只需要用到开头的几个或几十个数据,这样造成了极大的浪费,而生成器的工作方式是在每次循环时计算下一个值,不断推算出后续的元素,不会创建完整的数据集列表,从而节约了内存使用。


ratio = 0.8
offset = int(data.shape[0]*ratio)

train_data = data[:offset].copy()
test_data = data[offset:].copy()


def read_data(data_set):
    def reader():
        for data in data_set:
            yield data[:-1],data[-1:]      #这里是执行迭代,从后往前数的话,最后一个位置为-1                  
    return reader


        read_data -- 用于获取训练数据集及其标签的reader"""

def train():

    global train_data
    return read_data(train_data)

def test():
    global test_data
    return read_data(test_data)

设置训练参数 同学们可以试着调整一下参数值,看会有什么变化。 关于参数的解释如下: paddle.reader.shuffle(train(), buf_size=400)表示trainer从train()这个reader中读取了buf_size=400大小的数据并打乱顺序 paddle.batch(reader(), batch_size=BATCH_SIZE)表示从打乱的数据中再取出BATCH_SIZE=20大小的数据进行一次迭代训练



train_reader = paddle.batch(

test_reader = paddle.batch(

将设计完成的网络参数写入 train_program() 函数,便于训练时调用 相关函数定义可以查找paddlepaddle的使用文档http://www.paddlepaddle.org/documentation/api/zh/0.14.0/layers.html#permalink-47-fc


def train_program():
    y = fluid.layers.data(name='y', shape=[1], dtype='float32')

    # feature vector of length 13
    x = fluid.layers.data(name='x', shape=[1], dtype='float32')
    y_predict = fluid.layers.fc(input=x, size=1, act=None)

    loss = fluid.layers.square_error_cost(input=y_predict, label=y)
    avg_loss = fluid.layers.mean(loss)

    return avg_loss



def optimizer_program():
    return fluid.optimizer.SGD(learning_rate=0.01)

定义运算场所 首先进行最基本的运算场所定义,在 fluid 中使用 place = fluid.CUDAPlace(0) if use_cuda else fluid.CPUPlace() 来进行初始化: place 表示fluid program的执行设备,常见的有 fluid.CUDAPlace(0) 和 fluid.CPUPlace() use_cuda = False 表示不使用 GPU 进行加速训练


use_cuda = False 
place = fluid.CUDAPlace(0) if use_cuda else fluid.CPUPlace()

创建训练器 创建训练器时需要提供3个主要信息: 一个配置好的网络拓扑结构 训练的硬件场所 具体的优化方法


trainer = Trainer(

其它配置 feed_order=['x', 'y'] 是数据层名称和数组索引的映射,用于定义数据的读取顺序。 params_dirname用于定义模型保存路径。 最后定义事件处理器 event_handler_plot(event) 用于打印训练过程


feed_order=['x', 'y']
# Specify the directory to save the parameters
import os
params_dirname = "/home/aistudio/inference_model"
 # 如果保存路径不存在就创建
if not os.path.exists(params_dirname):
import shutil
shutil.rmtree(params_dirname)    #递归删除文件夹

train_title = "Train cost"
test_title = "Test cost"
plot_cost = Ploter(train_title, test_title)

step = 0

# event_handler prints training and testing info
def event_handler(event):
    global step
    if isinstance(event, EndStepEvent):#每步触发事件
        if step % 10 == 0:   # record a train cost every 10 batches
            print("%s, Step %d, Cost %f" %(train_title, step, event.metrics[0]))

        if step % 100 == 0:  # record a test cost every 100 batches
            test_metrics = trainer.test(
                reader=test_reader, feed_order=feed_order)
            print("%s, Step %d, Cost %f" %(test_title, step, test_metrics[0]))

            if test_metrics[0] < 0.01:
                # If the accuracy is good enough, we can stop the training.
                print('loss is less than 0.001, stop')
        step += 1

    if isinstance(event, EndEpochEvent):#每次迭代触发事件
        if event.epoch % 10 == 0:
            # We can save the trained parameters for the inferences later
            if params_dirname is not None:

开始训练 我们现在可以通过调用trainer.train()来开始训练 关于参数的解释如下: 参数feed_order用到了之前定义的feed_order索引,将数据层x和y按顺序输入trainer,也就是数据的来源。 参数event_handler是事件管理机制,读者可以自定义event_handler,根据事件信息作相应的操作。 参数num_epochs=100表示迭代训练100次后停止训练。


%matplotlib inline
# The training could take up to a few minutes.
Train cost, Step 0, Cost 4.768987
Test cost, Step 0, Cost 8.029277
Train cost, Step 10, Cost 3.512895
Train cost, Step 20, Cost 4.517720
Test cost, Step 1000, Cost 0.153360
Test cost, Step 2000, Cost 0.029656
Test cost, Step 3000, Cost 0.024128
Train cost, Step 3100, Cost 0.024111
Test cost, Step 3100, Cost 0.025594
Train cost, Step 3200, Cost 0.021095
Test cost, Step 3200, Cost 0.028093
Train cost, Step 3300, Cost 0.037860
Test cost, Step 3300, Cost 0.026783
Train cost, Step 3400, Cost 0.025673
Test cost, Step 3400, Cost 0.026371
Train cost, Step 3500, Cost 0.030663
Test cost, Step 3500, Cost 0.025029
Train cost, Step 3600, Cost 0.012924
Test cost, Step 3600, Cost 0.028458
Train cost, Step 3700, Cost 0.024145
Test cost, Step 3700, Cost 0.026889
Train cost, Step 3800, Cost 0.019810
Test cost, Step 3800, Cost 0.025651
Train cost, Step 3900, Cost 0.040621
Test cost, Step 3900, Cost 0.025927
Train cost, Step 4000, Cost 0.043626
Test cost, Step 4000, Cost 0.027540
Train cost, Step 4100, Cost 0.016928
Test cost, Step 4100, Cost 0.026744
!ls /home/aistudio/inference_model
fc_0.b_0  fc_0.w_0  learning_rate_0

设定预测程序 类似于 trainer.train,预测器需要一个预测程序来做预测。我们可以稍加修改我们的训练程序来把预测值包含进来。


def inference_program():
    x = fluid.layers.data(name='x', shape=[1], dtype='float32')
    y_predict = fluid.layers.fc(input=x, size=1, act=None)
    return y_predict

预测 预测器会从params_dirname中读取已经训练好的模型,来对从未遇见过的数据进行预测。 tensor_x:生成batch_size个[0,1]区间的随机数,以 tensor 的格式储存 results:预测对应 tensor_x 有机质含量的氮含量 raw_x:由于数据处理时我们做了归一化操作,为了更直观的判断预测是否准确,将数据进行反归一化,得到随机数对应的原始数据。


inferencer = Inferencer(
    infer_func=inference_program, param_path=params_dirname, place=place)

batch_size = 2
tensor_x = np.random.uniform(0, 1, [batch_size, 1]).astype("float32")

results = inferencer.infer({'x': tensor_x})
raw_x = tensor_x*(maximums[i]-minimums[i])+avgs[i]
print("含氮量: ", results[0])
有机质含量: [[79.4205  ]
含氮量:  [[3.8053818]


  • 数学原理:已知两点求直线方程


a = (results[0][0][0] - results[0][1][0]) / (raw_x[0][0]-raw_x[1][0])
b = (results[0][0][0] - a * raw_x[0][0])
0.047056526 0.068128824

绘制拟合图像 通过训练,本次线性回归模型输出了一条拟合的直线,想要直观的判断模型好坏可将拟合直线与数据的图像绘制出来。


import numpy as np
import matplotlib.pyplot as plt
import sys          #python2  如果要运行在python3需要将这三句话注释
reload(sys)         #python2
sys.setdefaultencoding('utf-8')  #python2

from matplotlib import rc
rc('font',**{'family':'sans-serif','sans-serif':['AR PL KaitiM GB']})

data = np.loadtxt('/home/aistudio/data/data2054/data_soil.txt',delimiter = ',')

def plot_data(data):
    x = data[:,0]
    y = data[:,1]
    y_predict = x*a + b
    plt.title('Organic matter nitrogen content')#有机质氮含量
    plt.xlabel('Organic matter content')#有机质含量
    plt.ylabel('Nitrogen content')#氮含量
    predict = plt.plot(x,y_predict,label='Predict')
    plt.legend(loc='upper left')


总结 通过这个练习我们应该记住: 机器学习的典型过程: 获取数据 数据预处理 -训练模型 -应用模型 fluid训练模型的基本步骤: 配置网络结构: 定义成本函数avg_cost 定义优化器optimizer 获取训练数据 定义运算场所(place)和执行器(exe) 提供数据(feeder) 执行训练(exe.run) 预测infer()并输出拟合图像 练习中的许多参数可以作调整,例如修改学习率会对模型结果产生很大影响,大家可以在本练习或者后面的练习中多做些尝试。 至此线性回归模型的训练工作完成,希望通过本次课程的学习,读者可以利用提供的代码完成一个简单的房价预测模型。通过这一过程,初步了解PaddlePaddle这一易学易用的分布式平台。 本节课作为PaddlePaddle的快速入门章节,希望可以开启您的下一步深度学习之门。





