Tensorflow
- 用以编写程序的计算机软件;
- 计算机软件开发工具;
- 可用于人工智能、深度学习、高性能计算、分布式计算、虚拟化和机器学习这些领域;
- 软件库可用于通用目的的计算、数据收集的操作、数据变换、输入输出、人工智能等领域的建模和测试
- 软件可用作应用于人工智能等领域的应用程序接口(API)
#-*- coding:utf-8 -*-
#1.使用Tensorflow自定义一个线性分类器用于对“良/恶性乳腺癌肿瘤”进行预测
import tensorflow as tf
import numpy as np
import pandas as pd
train = pd.read_csv('../Breast-Cancer/breast-cancer-train.csv',names=column_names)
test = pd.read_csv('../Breast-Cancer/breast-cancer-test.csv',names=column_names)
#分隔特征与分类目标
X_train = np.float32(train[['Clump Thickness','Cell Size']].T)
y_train = np.float32(train[['Type']].T)
X_test = np.float32(test[['Clump Thickness','Cell Size']].T)
y_test = np.float32(test[['Type']].T)
#定义一个tensorflow的变量b作为线性模型的截距,同时设置初始值为1.0
b = tf.Variable(tf.zeros([1]))
#定义一个tensorflow的变量W作为线性模型的系数,并设置初始值为-1.0至1.0之间均匀分布的随机数
W = tf.Variable(tf.random_uniform([1,2],-1.0,1.0))
#显式定义这个线性函数
y = tf.matmul(W,X_train)+b
#使用tensorflow中对reduce_mean取得训练集上均方误差
loss = tf.reduce_mean(tf.square(y-y_train))
#使用梯度下降法估计参数W,b,并且设置迭代步长为0.01,这个与sklearn中的SGDRegressor类似
optimizer = tf.train.GradientDescentOptimizer(0.01)
#以最小二乘损失为优化目标
train = optimizer.minimize(loss)
#初始化所有变量
init = tf.initialize_all_variables()
#开启tensorflow中的会话
sess = tf.Session()
#执行变量初始化操作
sess.run(init)
#迭代1000轮次,训练参数
for step in xrange(0,1000):
sess.run(train)
if step%200 == 0:
print step,sess.run(W),sess.run(b)
#准备测试样本
test_negative = test.loc[test['type']==0][['Clump Thickness','Cell Size']]
test_positive = test.loc[test['type']==1][['Clump Thickness','Cell Size']]
#以最终更新的参数作图
import matplotlib.pyplot as plt
plt.scatter(test_negative['Clump Thickness'],test_negative['Cell Size'],marker='o',s=200,c='red')
plt.scatter(test_positive['Clump Thickness'],test_positive['Cell Size'],marker='x',s=150,c='black')
plt.xlable('Clump Thickness')
plt.ylable('Cell Size')
lx = np.arrange(0,12)
#这里强调一下,我们以0.5(良性肿瘤为0,恶性肿瘤为1)作为分界面,所以计算方式如下:
ly = (0.5-sess.run(b))-lx*sess.run(W)[0][0])/sess.run(W)[0][0]
plt.plot(lx,ly,color='green')
plt.show()
#小结:
#使用tensorflow自定义分类器也可以取得与使用sklearn的LogisticRegression模型相近的效果,
#但是这样按照理论搭建学习系统难度较大,于是我们学习另一个框架skflow,它对Tensorflow进一步的封装,
#目的是实现像sklearn使用接口类似的工具包
输出结果:
SKFlow
- 非常适合那些熟悉于scikit-learn编程接口对使用者,而且利用Tensorflow的运算架构和模块,封装了许多经典的机器学习模型,如线性回归器、深度全连接的神经网络(DNN)等,推荐使用skflow;
- 不过skflow仍然支持使用TensorFlow的基础算子来自定义学习流程,比如在自己搭建神经网络模型方面。
# 2.使用skflow内置的LinearRegreesor、DNN、以及scikit-learn中的集成回归模型对‘美国波士顿房价’进行回归预测
from sklearn import datasets,metrics,preprocessing,cross_validation
#使用datasets.load_boston读取数据
boston= datasets.load_boston()
X,y=boston.data,boston.target
X_train,X_test,y_train,y_test=cross_validation.train_test_split(X,y,test_size=0.25,random_state=33)
#数据特征进行标准化处理
scaler = preprocessing.StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
#导入skflow
import skflow
#(1)使用skflow的LinearRegressor
tf_lr = skflow.TensorFlowLinearRegressor(steps=10000,learning_rate=0.01,batch_size=50)
tf_lr.fit(X_train,y_train)
tf_lr_y_predict = tf_lr.predict(X_test)
#输出TensorFlowLinearRegressor的回归性能
print 'the MAE of tflr on dataset is',metrics.mean_absolute_error(tf_lr_y_predict,y_test)
print 'the MSE of tflr on dataset is',metrics.mean_squared_error(tf_lr_y_predict,y_test)
print 'the r2-score of tflr on dataset is',metrics.r2_score(tf_lr_y_predict,y_test)
#(2)使用skflow的DNNRegressor,并且注意其每个隐层<特征数量>的配置,这里第一层是100个特征,第二层是40个
tf_dnn_regressor = skflow.TensorFlowDNNRegressor(hidden_units=[100,40],steps=10000,learning_rate=0.01,batch_size=50)
tf_dnn_regressor.fit(X_train,y_train)
tf_dnn_y_predict=tf_dnn_regressor.predict(X_test)
#输出TensorFlowDNNRegressor的回归性能
print 'the MAE of tf_dnn on dataset is',metrics.mean_absolute_error(tf_dnn_y_predict,y_test)
print 'the MSE of tf_dnn on dataset is',metrics.mean_squared_error(tf_dnn_y_predict,y_test)
print 'the r2-score of tf_dnn on dataset is',metrics.r2_score(tf_dnn_y_predict,y_test)
#(3)使用scikit-learn的RandomForestRegressor
from sklearn.ensemble import RandomForestRegressor
rfr = RandomForestRegressor()
rfr.fit(X_train,y_train)
rfr_y_predict = rfr.predict(X_test)
#输出RandomForestRegressor的回归性能
print 'the MAE of rfr on dataset is',metrics.mean_absolute_error(rfr_y_predict,y_test)
print 'the MSE of rfr on dataset is',metrics.mean_squared_error(rfr_y_predict,y_test)
print 'the r2-score of rfr on dataset is',metrics.r2_score(rfr_y_predict,y_test)
#小结:
#通过上述一系列的输出可知,深度神经网络可以表现处更高的性能,不过需注意的是,越是具备描述复杂数据的强力模型,
#越容易在训练时陷入过拟合,这一点需要在配置DNN的层数和每层特征元的数量时特别注意。