《基于Python语言的机器学习系统设计》--序

最新推荐文章于 2024-05-29 03:23:34 发布

Kwzc4

最新推荐文章于 2024-05-29 03:23:34 发布

阅读量425

点赞数

分类专栏：机器学习文章标签：机器学习 python

本文链接：https://blog.csdn.net/Kwzc4/article/details/106898730

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

《基于Python语言的机器学习系统设计》--序

前

今天开始接触机器学习部分，所使用的参考教材为Willi Richert 和Luis Pedro Coelho所编写的《Building Machine Learning Systems with Python》(译：基于Python语言的机器学习系统设计)，本教材是基于py2.7所写，而自己现在要学习py3，所以在学习的过程中还需要对部分编码进行修改, 好的，我已经准备好了，满书的bug向我砸过来吧～
工欲善其事，必先利其器。首先安装：Numpy Scipy Matplotlib三个包包

sudo apt-get update#对安装器进行升级
sudo apt-get upgrade#对安装器进行升级
sudo apt-get install python3-pip#安装py3的包获取器
pip3 install numpy
pip3 install scipy
pip3 install matplotlib

#堆上几块砖速度会更快呦～～～（别问我这个砖怎么堆，问就不知道）

对Numpy 包包简单介绍

如下：（教材搬运）

1.查看版本号

>>> import numpy
>>> numpy.version.full_version
'1.18.5'

2.对arry进行实验

>>> import numpy as np
>>> a = np.array([0,1,2,3,4,5])
>>> a
array([0, 1, 2, 3, 4, 5])
>>> a.ndim #维度
1
>>> a.shape
(6,)

3.如2所示，使用array创建数组，其类似于在python中创建一个list，虽然list可以创建成list的list，但是list是没有维度可言的，而array就有一个纬度的说明就是它的dimensional和shape。

>>> b = a.reshape(3,2)
>>> b
array([[0, 1],
       [2, 3],
       [4, 5]])
>>> b.ndim
2
>>> b.shape
(3, 2)

如果对b中的数字进行更改，则a中的数据也会发生改变，我们可以把它理解成（肉夹馍）和（饼、肉、饼）的关系，两个实际上是一个东西，只是名字和形状不同而已，其区别也仅此而已。
但如果，我现在想b对a进行复制，而不是简简单单起个别名这么简单，那我们可以使用这个方法：b = a.reshape(3,2).copy(),这样a和b就是独立的两个变量了。

4.array能直接进行乘方运算，是不是很神奇？list没有这个功能。

>>> a**2
array([ 0,  1,  4,  9, 16, 25])
>>> [0,1,2,3,4,5]**2
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: unsupported operand type(s) for ** or pow(): 'list' and 'int'

5.索引功能

>>> a[[2,3,4]]#访问a数组中下标为2 3 4的元素
array([2, 3, 4])
>>> a[np.array([2,3,4])]#同上
array([2, 3, 4])

>>> a>4#判断a中每个元素和4的关系
array([False, False, False, False, False,  True])
>>> a[a>4]#筛选a中比4大的元素
array([5])

>>> a[a>4] = 2 #把a中大于4的元素修改成2
>>> a
array([0, 1, 2, 3, 4, 2])

>>> a.clip(2,4)#把比2小的改为2，大于4的改为4
array([2, 2, 2, 3, 4, 4])

5.使用np.NAN 代表一个空值，用例如

>>> c = np.array([1,2,np.NAN,3,4])
>>> c
array([ 1.,  2., nan,  3.,  4.])
>>> np.isnan(c)#判断c中每个元素是否为空值
array([False, False,  True, False, False])

6.用c[~np.isnan(c)] 可以获取c中非空的元素值
通过上述几个示例可以总结：array[ 判断条件 ] 可以对该数组中的元素进行筛选。

7.其他函数
   np.dot()#矩阵乘法函数
              #若改为a.dot(a),其中a为array格式数组，则为a*a然后结果相加
      np.arange(**)#生成1～**的数组

对Scipy 包包简单介绍

如下：（教材搬运）
上代码

import scipy as sp #引包，数据处理
import matplotlib.pyplot as plt #引包，作图

data = sp.genfromtxt("web_traffic.tsv",delimiter="\t") #获取数据
x = data[:,0]#将数据按照维度进行提取
y = data[:,1]

x = x[~sp.isnan(y)]#对空值的数据进行清洗
y = y[~sp.isnan(y)]

plt.scatter(x,y)
plt.title("web traffic over the last month")
plt.xlabel("time") #x轴名称
plt.ylabel("Hits/hour") #y轴名称
plt.xticks([w*7*24 for w in range(10)],['week %i' %w for w in range(10)])

#对这个函数的理解是：第一个参数是把横坐标轴看作是一条标准的直线轴，在上边按照第一个参数（list）对显示的坐标轴间距进行重写，可以对第一个参数中的某些数据进行更改进行试验
#第二个参数是横轴坐标名称，还有第（3～n）个参数，它们是对显示的颜色旋转等进行自定义设置

plt.autoscale(tight = True)

#对坐标轴范围进行自适应调整，在这里tight = True ，简单来讲就是将坐标轴的最大值设置为数据中的最大值，使图像看着更加紧凑美观

plt.grid()#显示网格
plt.show()#显示图像

下面的代码，函数，变量先糊涂用，后面再清楚学。


def error(f,x,y):
    return sp.sum((f(x) -y)**2)

fp1,residuals,rank,sv,rcond = sp.polyfit(x,y,1,full = True)
#fp1 返回两个数据a、b，解释为  最合适的函数是 y = a*x +b
#residuals 是所有的数据对于此拟合函数的方差和，其结果等同于下面操作
f1 = sp.poly1d(fp1)#emmm,这是1不是l

#下面对第一个训练模型进行显示（emmm，说实话，我没认为这是一个什么训练模型，就是一个简简单单的拟合，但是，书上说是，就是呗～）
fx =sp.linspace(0,x[-1],1000)
plt.plot(fx,f1(fx),linewidth=4)
plt.legend(["d=%i" % f1.order], loc="upper left")

plt.show()

#后面的几个示例就是对polyfit(x,y,1,full = True)中的1进行值的变化2～100，其实就是现实中函数的幂次，此处不过与赘述。
#是不是幂次越高，拟合越贴近，拟合函数越好？显然不是，因为在极端的情况下，函数可以和数据极高度拟合，这时部分数据中是有噪声数据的（由于极小概率事件引起的数据变化），那此时可以被称为过度拟合（overfitting）。概念可自行百度。

#下一步，我们尝试着对数据进行再次观察，重新拟合#按照教材所说，在第三周和第四周之间数据趋势发生了明显的变化，所以把和数据分成了两部分进行两次拟合

inflection = int(3.5*7*24) #设置中间节点
xa = x[:inflection]
ya = y[:inflection]

xb = x[inflection:]
yb = y[inflection:]

fa = sp.poly1d(sp.polyfit(xa,ya,1))
fb = sp.poly1d(sp.polyfit(xb,yb,1))

小结

书上说，Congratulations！

大意是到这里接触了机器学习两个重要的东西，一个是花费时间去理解和精炼数据，第二个是正确的实验步骤，训练与测试的不同（不知道翻译的对不对，暂且按照这样理解）。

还有一点是不要把精力放在那些花里胡哨的算法上，我们的主要目的是数据。

参考书籍

1、Willi Richert / Luis Pedro Coelho. Building Machine Learning Systems with Python[M] Packt Publishing.2013-7-26

Kwzc4

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《基于Python语言的机器学习系统设计》--序

《基于Python语言的机器学习系统设计》--序目录前对Numpy 包包简单介绍对Scipy 包包简单介绍小结前今天开始接触机器学习部分，所使用的参考教材为Willi Richert 和Luis Pedro Coelho所编写的《Building Machine Learning Systems with Python》(译：基于Python语言的机器学习系统设计)，本教材是基于py2.7所写，而自己现在要学习py3，所以在学习的过程中还需要对部分编码进行修改, 好的，我..
复制链接

扫一扫