23.【进阶】流行库模型--Tensorflow&SKFlow

最新推荐文章于 2023-07-17 23:43:28 发布

jho9o5

最新推荐文章于 2023-07-17 23:43:28 发布

阅读量678

点赞数 1

分类专栏：机器学习实战文章标签：机器学习 Tensorflow skflow

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/jh1137921986/article/details/79834621

版权

机器学习实战专栏收录该内容

32 篇文章 53 订阅

订阅专栏

Tensorflow

用以编写程序的计算机软件；
计算机软件开发工具；
可用于人工智能、深度学习、高性能计算、分布式计算、虚拟化和机器学习这些领域；
软件库可用于通用目的的计算、数据收集的操作、数据变换、输入输出、人工智能等领域的建模和测试
软件可用作应用于人工智能等领域的应用程序接口(API)

#-*- coding:utf-8 -*-

#1.使用Tensorflow自定义一个线性分类器用于对“良/恶性乳腺癌肿瘤”进行预测

import tensorflow as tf 
import numpy as np  
import pandas as pd  

train = pd.read_csv('../Breast-Cancer/breast-cancer-train.csv',names=column_names)
test = pd.read_csv('../Breast-Cancer/breast-cancer-test.csv',names=column_names)

#分隔特征与分类目标
X_train = np.float32(train[['Clump Thickness','Cell Size']].T)
y_train = np.float32(train[['Type']].T)

X_test = np.float32(test[['Clump Thickness','Cell Size']].T)
y_test = np.float32(test[['Type']].T)

#定义一个tensorflow的变量b作为线性模型的截距，同时设置初始值为1.0
b = tf.Variable(tf.zeros([1]))
#定义一个tensorflow的变量W作为线性模型的系数，并设置初始值为-1.0至1.0之间均匀分布的随机数
W = tf.Variable(tf.random_uniform([1,2],-1.0,1.0))

#显式定义这个线性函数
y = tf.matmul(W,X_train)+b

#使用tensorflow中对reduce_mean取得训练集上均方误差
loss = tf.reduce_mean(tf.square(y-y_train))

#使用梯度下降法估计参数W,b,并且设置迭代步长为0.01，这个与sklearn中的SGDRegressor类似
optimizer = tf.train.GradientDescentOptimizer(0.01)

#以最小二乘损失为优化目标
train = optimizer.minimize(loss)

#初始化所有变量
init = tf.initialize_all_variables()

#开启tensorflow中的会话
sess = tf.Session()

#执行变量初始化操作
sess.run(init)

#迭代1000轮次，训练参数
for step in xrange(0,1000):
    sess.run(train)
    if step%200 == 0:
        print step,sess.run(W),sess.run(b)

#准备测试样本
test_negative = test.loc[test['type']==0][['Clump Thickness','Cell Size']]
test_positive = test.loc[test['type']==1][['Clump Thickness','Cell Size']]

#以最终更新的参数作图
import matplotlib.pyplot as plt 
plt.scatter(test_negative['Clump Thickness'],test_negative['Cell Size'],marker='o',s=200,c='red')
plt.scatter(test_positive['Clump Thickness'],test_positive['Cell Size'],marker='x',s=150,c='black')
plt.xlable('Clump Thickness')
plt.ylable('Cell Size')

lx = np.arrange(0,12)

#这里强调一下，我们以0.5(良性肿瘤为0，恶性肿瘤为1)作为分界面，所以计算方式如下：
ly = (0.5-sess.run(b))-lx*sess.run(W)[0][0])/sess.run(W)[0][0]

plt.plot(lx,ly,color='green')
plt.show()

#小结：
#使用tensorflow自定义分类器也可以取得与使用sklearn的LogisticRegression模型相近的效果，
#但是这样按照理论搭建学习系统难度较大，于是我们学习另一个框架skflow,它对Tensorflow进一步的封装，
#目的是实现像sklearn使用接口类似的工具包

输出结果：
这里写图片描述

SKFlow

非常适合那些熟悉于scikit-learn编程接口对使用者，而且利用Tensorflow的运算架构和模块，封装了许多经典的机器学习模型，如线性回归器、深度全连接的神经网络(DNN)等，推荐使用skflow；
不过skflow仍然支持使用TensorFlow的基础算子来自定义学习流程，比如在自己搭建神经网络模型方面。

# 2.使用skflow内置的LinearRegreesor、DNN、以及scikit-learn中的集成回归模型对‘美国波士顿房价’进行回归预测

from sklearn import datasets,metrics,preprocessing,cross_validation

#使用datasets.load_boston读取数据
boston= datasets.load_boston()

X,y=boston.data,boston.target

X_train,X_test,y_train,y_test=cross_validation.train_test_split(X,y,test_size=0.25,random_state=33)

#数据特征进行标准化处理
scaler = preprocessing.StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

#导入skflow
import skflow
#(1)使用skflow的LinearRegressor
tf_lr = skflow.TensorFlowLinearRegressor(steps=10000,learning_rate=0.01,batch_size=50)
tf_lr.fit(X_train,y_train)
tf_lr_y_predict = tf_lr.predict(X_test)
#输出TensorFlowLinearRegressor的回归性能
print 'the MAE of tflr on dataset is',metrics.mean_absolute_error(tf_lr_y_predict,y_test)
print 'the MSE of tflr on dataset is',metrics.mean_squared_error(tf_lr_y_predict,y_test)
print 'the r2-score of tflr on dataset is',metrics.r2_score(tf_lr_y_predict,y_test)

#(2)使用skflow的DNNRegressor,并且注意其每个隐层<特征数量>的配置,这里第一层是100个特征，第二层是40个
tf_dnn_regressor = skflow.TensorFlowDNNRegressor(hidden_units=[100,40],steps=10000,learning_rate=0.01,batch_size=50)
tf_dnn_regressor.fit(X_train,y_train)
tf_dnn_y_predict=tf_dnn_regressor.predict(X_test)
#输出TensorFlowDNNRegressor的回归性能
print 'the MAE of tf_dnn on dataset is',metrics.mean_absolute_error(tf_dnn_y_predict,y_test)
print 'the MSE of tf_dnn on dataset is',metrics.mean_squared_error(tf_dnn_y_predict,y_test)
print 'the r2-score of tf_dnn on dataset is',metrics.r2_score(tf_dnn_y_predict,y_test)

#(3)使用scikit-learn的RandomForestRegressor
from sklearn.ensemble import RandomForestRegressor
rfr = RandomForestRegressor()
rfr.fit(X_train,y_train)
rfr_y_predict = rfr.predict(X_test)
#输出RandomForestRegressor的回归性能
print 'the MAE of rfr on dataset is',metrics.mean_absolute_error(rfr_y_predict,y_test)
print 'the MSE of rfr on dataset is',metrics.mean_squared_error(rfr_y_predict,y_test)
print 'the r2-score of rfr on dataset is',metrics.r2_score(rfr_y_predict,y_test)

#小结：
#通过上述一系列的输出可知，深度神经网络可以表现处更高的性能，不过需注意的是，越是具备描述复杂数据的强力模型，
#越容易在训练时陷入过拟合，这一点需要在配置DNN的层数和每层特征元的数量时特别注意。