[python] 机器学习 sklearn和tensorflow

最新推荐文章于 2024-08-06 21:31:41 发布

啊嘞嘞嘞嘞

最新推荐文章于 2024-08-06 21:31:41 发布

阅读量960

点赞数 3

分类专栏： Python 机器学习文章标签： sklearn tensorflow

本文链接：https://blog.csdn.net/weixin_40902527/article/details/96271727

版权

Python 机器学习专栏收录该内容

6 篇文章 1 订阅

订阅专栏

Sklearn库

Sklearn是Python中的一个非常重要的机器学习库，在Sklearn库中不仅封装了大量的机器学习算法，它还内置了数据集，节省了获取和整理数据的时间。下面将简单介绍一下Sklearn库中常用的算法。

1、无监督学习算法

2、监督学习算法

3、数据变换

注意：以上的每个模型中都包含着多个算法，使用某算法时，直接导入需要的包即可。例如：

from sklearn.linear_model import logistic

TensorFlow框架的基本使用

TensorFlow是一个编程系统，使用图来表示计算任务。图中的节点被称之为op（operation的缩写）。一个op获得0个或多个tensor，执行计算并产生0个或多个tensor。每个 tensor是一个类型化的多维数组。在Python语言中，返回的tensor是NumPy中的ndarray对象。下面我们就对TensorFlow如何使用进行简单的介绍。

1、常量变量的定义

# 导入需要的包
import tensorflow as tf
 
#常量的定义
cl = tf.constant(9)
 
# 变量的定义
bl = tf.Variable(tf.zeros(2, 2))
 
# 变量要想使用，需要执行以下代码
init = tf.initialize_all_variables()

如上例所示，调用TensorFlow中的constant()方法可以定义一个常量，调用Variable()方法可以定义一个变量。这里需要注意的是，变量定义完之后如果想要使用的话还要执行上例中的最后一条代码。

2、占位符的使用

占位符常用于变量定义时，定义变量需要初始化，但是有些变量在定义的时候是不知道他们的值的，这个时候就可以使用占位符来代替，定义方法如下。

  # 占位符
    zwf = tf.placeholder(tf.int16, [None, 88])

placeholder()方法可以定义一个占位符。上例中定义的占位符指定了zwf这个变量的类型和大小。

3、图的使用

就像上面所说的那样，在TensorFlow中，要实现具体的运算，如最基本的加减乘除，我们不能直接定义几个变量进行运算，要使用图来表示计算任务。一个TensorFlow图描述了计算的过程。为了进行计算, 图必须在session里被启动，session运行整个计算过程。

a = tf.Variable(5)
b = tf.Variable(5)
c = a * b
 
init = tf.initialize_all_variables()
with tf.Session() as sess:
    sess.run(init)
    print(sess.run(c))

输出结果：

上例中的sess.run()是执行操作，session创建使用完之后要释放。如果使用占位符的话，需要使用run()方法中的feed_dict参数为其赋值。
注意：要先执行初始化变量操作再执行相应的运算。

区别

1、功能不同

Scikit-learn(sklearn)的定位是通用机器学习库，而TensorFlow(tf)的定位主要是深度学习库。一个显而易见的不同：tf并未提供sklearn那种强大的特征工程，如维度压缩、特征选择等。究其根本，我认为是因为机器学习模型的两种不同的处理数据的方式：

传统机器学习：利用特征工程(feature engineering)，人为对数据进行提炼清洗
深度学习：利用表示学习(representation learning)，机器学习模型自身对数据进行提炼

sklearn更倾向于使用者可以自行对数据进行处理，比如选择特征、压缩维度、转换格式，是传统机器学习库。而以tf为代表的深度学习库会自动从数据中抽取有效特征，而不需要人为的来做这件事情，因此并未提供类似的功能。

2、使用自由度不同

sklearn 中的模块都是高度抽象化的，所有的分类器基本都可以在3-5行内完成，所有的转换器(如scaler和transformer)也都有固定的格式。这种抽象化限制了使用者的自由度，但增加了模型的效率，降低了批量化、标准化的的难度(通过使用pipeline)。

clf = svm.SVC() # 初始化一个分类器
clf.fit(X_train, y_train) # 训练分类器
y_predict = clf.predict(X_test) # 使用训练好的分类器进行预测

而tf不同，虽然是深度学习库，但它有很高的自由度。你依然可以用它做传统机器学习所做的事情，代价是你需要自己实现算法。因此用tf类比sklearn不适合，封装在tf等工具库上的keras[2]才更像深度学习界的sklearn。
从自由度角度来看，tf更高；从抽象化、封装程度来看，sklearn更高；从易用性角度来看，sklearn更高。

3、针对的群体、项目不同

sklearn主要适合中小型的、实用机器学习项目，尤其是那种数据量不大且需要使用者手动对数据进行处理，并选择合适模型的项目。这类项目往往在CPU上就可以完成，对硬件要求低。
tf主要适合已经明确了解需要用深度学习，且数据处理需求不高的项目。这类项目往往数据量较大，且最终需要的精度更高，一般都需要GPU加速运算。对于深度学习做“小样”可以在采样的小数据集上用keras做快速的实验，没了解的过朋友看一下keras的示例代码，就可以了解为什么keras堪比深度学习上的sklearn了。

model = Sequential() # 定义模型
model.add(Dense(units=64, activation='relu', input_dim=100)) # 定义网络结构
model.add(Dense(units=10, activation='softmax')) # 定义网络结构
model.compile(loss='categorical_crossentropy', # 定义loss函数、优化方法、评估标准
              optimizer='sgd',
              metrics=['accuracy'])
model.fit(x_train, y_train, epochs=5, batch_size=32) # 训练模型
loss_and_metrics = model.evaluate(x_test, y_test, batch_size=128) # 评估模型
classes = model.predict(x_test, batch_size=128) # 使用训练好的数据进行预测

不难看出，sklearn和tf有很大区别。虽然sklearn中也有神经网络模块，但做严肃的、大型的深度学习是不可能依靠sklearn的。虽然tf也可以用于做传统的机器学习、包括清理数据，但往往事倍功半。

4、scikit-learn&tensorflow结合使用

更常见的情况下，可以把sklearn和tf，甚至keras结合起来使用。sklearn肩负基本的数据清理任务，keras用于对问题进行小规模实验验证想法，而tf用于在完整的的数据上进行严肃的调参(炼丹)任务。
而单独把sklearn拿出来看的话，它的文档做的特别好，初学者跟着看一遍sklearn支持的功能大概就对机器学习包括的很多内容有了基本的了解。举个简单的例子，sklearn很多时候对单独的知识点有概述，比如简单的异常检测。因此，sklearn不仅仅是简单的工具库，它的文档更像是一份简单的新手入门指南。
因此，以sklearn为代表的传统机器学习库（如瑞士军刀般的万能但高度抽象），和以tf为代表的自由灵活更具有针对性的深度学习库（如乐高般高度自由但使用繁琐）都是机器学习者必须要了解的工具。

不过sklearn 还是很有必要学习的

理论上来说，深度学习技术也是机器学习的一个组成部分，学习其他传统机器学习方法对深入理解深度学习技术有很大帮助，知道模型凸的条件，才能更好的理解神经网络的非凸。知道传统模型的优点，才能更好的理解深度学习并不是万能的，也有很多问题和场景直接使用深度学习方法会遇到瓶颈和问题，需要传统方法来解决。
从实践上来说，深度学习方法一般需要大量GPU机器，工业界哪怕大公司的GPU资源也是有限的，一般只有深度学习方法效果远好于传统方法并且对业务提升很大的情况下，才会考虑使用深度学习方法，例如语音识别，图像识别等任务现在深度学习方法用的比较多，而NLP领域除了机器翻译以外，其他大部分任务仍然更常使用传统方法。传统方法一般有着更好的可解释性，这对检查调试模型也是非常有帮助的。工业上一般喜欢招能解决问题的人，而不是掌握最火技术的人，因此在了解深度学习技术的同时，学习一下传统方法是很有好处的。

结尾

说实话，即使现在深度学习大行其道，很多时候你还是要用传统机器学习方法解决问题的。首先不是每个人都有一个彪悍的电脑/服务器，其次，大多数问题真的不需要深度网络。最后，只会调用工具包的程序员不是好的机器学习者。