23.【进阶】流行库模型--Tensorflow&SKFlow

Tensorflow

  • 用以编写程序的计算机软件;
  • 计算机软件开发工具;
  • 可用于人工智能、深度学习、高性能计算、分布式计算、虚拟化和机器学习这些领域;
  • 软件库可用于通用目的的计算、数据收集的操作、数据变换、输入输出、人工智能等领域的建模和测试
  • 软件可用作应用于人工智能等领域的应用程序接口(API)
#-*- coding:utf-8 -*-

#1.使用Tensorflow自定义一个线性分类器用于对“良/恶性乳腺癌肿瘤”进行预测

import tensorflow as tf 
import numpy as np  
import pandas as pd  

train = pd.read_csv('../Breast-Cancer/breast-cancer-train.csv',names=column_names)
test = pd.read_csv('../Breast-Cancer/breast-cancer-test.csv',names=column_names)

#分隔特征与分类目标
X_train = np.float32(train[['Clump Thickness','Cell Size']].T)
y_train = np.float32(train[['Type']].T)

X_test = np.float32(test[['Clump Thickness','Cell Size']].T)
y_test = np.float32(test[['Type']].T)

#定义一个tensorflow的变量b作为线性模型的截距,同时设置初始值为1.0
b = tf.Variable(tf.zeros([1]))
#定义一个tensorflow的变量W作为线性模型的系数,并设置初始值为-1.01.0之间均匀分布的随机数
W = tf.Variable(tf.random_uniform([1,2],-1.0,1.0))

#显式定义这个线性函数
y = tf.matmul(W,X_train)+b

#使用tensorflow中对reduce_mean取得训练集上均方误差
loss = tf.reduce_mean(tf.square(y-y_train))

#使用梯度下降法估计参数W,b,并且设置迭代步长为0.01,这个与sklearn中的SGDRegressor类似
optimizer = tf.train.GradientDescentOptimizer(0.01)

#以最小二乘损失为优化目标
train = optimizer.minimize(loss)

#初始化所有变量
init = tf.initialize_all_variables()

#开启tensorflow中的会话
sess = tf.Session()

#执行变量初始化操作
sess.run(init)

#迭代1000轮次,训练参数
for step in xrange(0,1000):
    sess.run(train)
    if step%200 == 0:
        print step,sess.run(W),sess.run(b)

#准备测试样本
test_negative = test.loc[test['type']==0][['Clump Thickness','Cell Size']]
test_positive = test.loc[test['type']==1][['Clump Thickness','Cell Size']]

#以最终更新的参数作图
import matplotlib.pyplot as plt 
plt.scatter(test_negative['Clump Thickness'],test_negative['Cell Size'],marker='o',s=200,c='red')
plt.scatter(test_positive['Clump Thickness'],test_positive['Cell Size'],marker='x',s=150,c='black')
plt.xlable('Clump Thickness')
plt.ylable('Cell Size')

lx = np.arrange(0,12)

#这里强调一下,我们以0.5(良性肿瘤为0,恶性肿瘤为1)作为分界面,所以计算方式如下:
ly = (0.5-sess.run(b))-lx*sess.run(W)[0][0])/sess.run(W)[0][0]

plt.plot(lx,ly,color='green')
plt.show()

#小结:
#使用tensorflow自定义分类器也可以取得与使用sklearn的LogisticRegression模型相近的效果,
#但是这样按照理论搭建学习系统难度较大,于是我们学习另一个框架skflow,它对Tensorflow进一步的封装,
#目的是实现像sklearn使用接口类似的工具包

输出结果:
这里写图片描述

SKFlow

  • 非常适合那些熟悉于scikit-learn编程接口对使用者,而且利用Tensorflow的运算架构和模块,封装了许多经典的机器学习模型,如线性回归器、深度全连接的神经网络(DNN)等,推荐使用skflow;
  • 不过skflow仍然支持使用TensorFlow的基础算子来自定义学习流程,比如在自己搭建神经网络模型方面。
# 2.使用skflow内置的LinearRegreesor、DNN、以及scikit-learn中的集成回归模型对‘美国波士顿房价’进行回归预测

from sklearn import datasets,metrics,preprocessing,cross_validation

#使用datasets.load_boston读取数据
boston= datasets.load_boston()

X,y=boston.data,boston.target

X_train,X_test,y_train,y_test=cross_validation.train_test_split(X,y,test_size=0.25,random_state=33)

#数据特征进行标准化处理
scaler = preprocessing.StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

#导入skflow
import skflow
#(1)使用skflow的LinearRegressor
tf_lr = skflow.TensorFlowLinearRegressor(steps=10000,learning_rate=0.01,batch_size=50)
tf_lr.fit(X_train,y_train)
tf_lr_y_predict = tf_lr.predict(X_test)
#输出TensorFlowLinearRegressor的回归性能
print 'the MAE of tflr on dataset is',metrics.mean_absolute_error(tf_lr_y_predict,y_test)
print 'the MSE of tflr on dataset is',metrics.mean_squared_error(tf_lr_y_predict,y_test)
print 'the r2-score of tflr on dataset is',metrics.r2_score(tf_lr_y_predict,y_test)

#(2)使用skflow的DNNRegressor,并且注意其每个隐层<特征数量>的配置,这里第一层是100个特征,第二层是40个
tf_dnn_regressor = skflow.TensorFlowDNNRegressor(hidden_units=[100,40],steps=10000,learning_rate=0.01,batch_size=50)
tf_dnn_regressor.fit(X_train,y_train)
tf_dnn_y_predict=tf_dnn_regressor.predict(X_test)
#输出TensorFlowDNNRegressor的回归性能
print 'the MAE of tf_dnn on dataset is',metrics.mean_absolute_error(tf_dnn_y_predict,y_test)
print 'the MSE of tf_dnn on dataset is',metrics.mean_squared_error(tf_dnn_y_predict,y_test)
print 'the r2-score of tf_dnn on dataset is',metrics.r2_score(tf_dnn_y_predict,y_test)

#(3)使用scikit-learn的RandomForestRegressor
from sklearn.ensemble import RandomForestRegressor
rfr = RandomForestRegressor()
rfr.fit(X_train,y_train)
rfr_y_predict = rfr.predict(X_test)
#输出RandomForestRegressor的回归性能
print 'the MAE of rfr on dataset is',metrics.mean_absolute_error(rfr_y_predict,y_test)
print 'the MSE of rfr on dataset is',metrics.mean_squared_error(rfr_y_predict,y_test)
print 'the r2-score of rfr on dataset is',metrics.r2_score(rfr_y_predict,y_test)

#小结:
#通过上述一系列的输出可知,深度神经网络可以表现处更高的性能,不过需注意的是,越是具备描述复杂数据的强力模型,
#越容易在训练时陷入过拟合,这一点需要在配置DNN的层数和每层特征元的数量时特别注意。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值