python机器学习第二章：机器学习分类算法

最新推荐文章于 2022-11-15 22:20:23 发布

乐乐大鱼塘

最新推荐文章于 2022-11-15 22:20:23 发布

阅读量508

点赞数

分类专栏： python机器学习

python机器学习专栏收录该内容

9 篇文章 1 订阅

订阅专栏

1、感知器收敛的前提是两个类别必须是线性可分的，激励函数为阶跃函数。
2、Adeline 算法
3、（批量）梯度下降随机梯度下降小批次梯度下降

知识点1：Python zip()函数

原文demo

def fit(self,X,y):
 
        self.w_ = np.zeros(1+X.shape[1])
        self.errors_ = []
        for _ in range(self.epoch):
            errors = 0
            for xi,target in zip(X,y):
                update = self.alpha*(target-self.predict(xi))
                self.w_[1:] += update*xi
                self.w_[0] += update
                errors += int(update!=0.0)
            self.errors_.append(errors)
        return self

作用：将两个数组打包为元组

eg：

a=[1,2,3]
b=[4,5,6]
c=zip(a,b)
#c:[(1,4),(2,5),(3,6)]

知识点2：numpy.where(condition[, x, y])

原文demo：

y = np.where(y=='Iris-setosa',-1,1)
>>array([-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,  1,  1,
        1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
        1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
        1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1])

语法介绍：

1、这里x,y是可选参数，condition是条件，这三个输入参数都是array_like的形式；而且三者的维度相同
2、当conditon的某个位置的为true时，输出x的对应位置的元素，否则选择y对应位置的元素；
3、如果只有参数condition，则函数返回为true的元素的坐标位置信息；

知识点3：numpy.meshgrid()

原文代码：

def plot_decision_regions(X,y,classifier,resolution=0.02):
    markers = ('s','x','o','^','v')
    colors = ('red','blue','lightgreen','gray','cyan')
    cmap = ListedColormap(colors[:len(np.unique(y))])
    x1_min,x1_max = X[:,0].min()-1,X[:,0].max()+1
    x2_min,x2_max = X[:,1].min()-1,X[:,1].max()+1
    xx1,xx2 = np.meshgrid(np.arange(x1_min,x1_max,resolution),np.arange(x2_min,x2_max,resolution))
    z = classifier.predict(np.array([xx1.ravel(),xx2.ravel()]).T)

作用：从坐标向量返回坐标矩阵。

eg：

x = np.arange(-2,2)
y = np.arange(0,3)#生成一位数组，其实也就是向量
 
x
Out[31]: array([-2, -1,  0,  1])
 
y
Out[32]: array([0, 1, 2])
 
z,s = np.meshgrid(x,y)#将两个一维数组变为二维矩阵
 
z
Out[36]: 
array([[-2, -1,  0,  1],
       [-2, -1,  0,  1],
       [-2, -1,  0,  1]])
 
s
Out[37]: 
array([[0, 0, 0, 0],
       [1, 1, 1, 1],
       [2, 2, 2, 2]])

知识点4：numpy.ravel() 与numpy.flatten()

原文代码：

def plot_decision_regions(X,y,classifier,resolution=0.02):
    markers = ('s','x','o','^','v')
    colors = ('red','blue','lightgreen','gray','cyan')
    cmap = ListedColormap(colors[:len(np.unique(y))])
    x1_min,x1_max = X[:,0].min()-1,X[:,0].max()+1
    x2_min,x2_max = X[:,1].min()-1,X[:,1].max()+1
    xx1,xx2 = np.meshgrid(np.arange(x1_min,x1_max,resolution),np.arange(x2_min,x2_max,resolution))
    z = classifier.predict(np.array([xx1.ravel(),xx2.ravel()]).T)

二者都是将多维数组降位一维，

区别：
numpy.flatten()返回一份拷贝，对拷贝所做的修改不会影响（reflects）原始矩阵，
numpy.ravel()返回的是视图（view，也颇有几分C/C++引用reference的意味），会影响（reflects）原始矩阵。
两者默认均是行序优先

In [1]: import numpy as np 
In [2]:x=np.array([[1,2],[3,4],[5,6]]) 
In [3]:x 
Out[3]: 
array([[1, 2], [3, 4], [5, 6]]) 
In [4]:x.flatten() 
Out[4]:array([1, 2, 3, 4, 5, 6]) 
In [7]:x.ravel() 
Out[7]:array([1, 2, 3, 4, 5, 6]) 
In [8]:x.flatten('F') 
Out[8]:array([1, 3, 5, 2, 4, 6]) 
In[8]:x.flatten('F') 
Out[8]: array([1, 3, 5, 2, 4, 6]) 
 
In[9]:x.ravel('F') 
Out[9]: array([1, 3, 5, 2, 4, 6])

知识点5：Numpy中转置transpose、T和swapaxes

原文代码同上

In [1]: import numpy as np
 
In [2]: arr=np.arange(16).reshape(2,2,4)
 
In [3]: arr
Out[3]:
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],
 ···
       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

如上图所示，将0-15放在一个2 2 4 的矩阵当中，得到结果如上。
现在要进行装置transpose操作，比如

In [4]: arr.transpose(1,0,2)
Out[4]:
array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],
 
       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

每一个元素都分析一下，0位置在[0,0,0]，转置为[0,0,0]，相当于把原来位置在[0,1,2]的转置到[1,0,2]，对0来说，位置转置后为[0,0,0]，同理，对1 [0,0,1]来说，转置后为[0,0,1]。比如，数值6开始的索引是[0,1,2]，变换后变成了[1,0,2]。
对多维数组来说，确定最底层的一个基本元素位置需要用到的索引个数即是维度。
我是这样的理解的，比如说三维的数组，那就对维度进行编号，也就是0,1,2。
以上代码就是将第一维和第二维转置。

ndarray的T属性，用法则比较简单，只需要在数组后跟.T即可。.T属性实际是转置里面的特殊情况，即不指定转置规则的默认规则。

#一维数组转置

>>> arr = np.arange(6)
>>> print arr
[0, 1, 2, 3, 4, 5]
>>> print arr.T
[0, 1, 2, 3, 4, 5]#一维还是一维…
#二维数组转置
>>> arr = np.arange(6).reshape((2,3))
>>> print arr
[[0, 1, 2],
 [3, 4, 5]]
>>> print arr.T
[[0,3],
 [1,4],
 [3,5]]
#三维数组的转置
>>> arr = np.arange(24).reshape((2,3,4))
>>> print arr
[[[ 0, 1, 2, 3],
   [ 4, 5, 6, 7],
   [ 8, 9, 10, 11]],
  [[ 12, 13, 14, 15],
   [ 16, 17, 18, 19],
   [ 20, 21, 22, 23]]]
>>> print arr.T
[[[0, 12],
  [4, 16],
  [8, 20]],
 [[1, 13],
  [5, 17],
  [9, 21]],
 [[2, 14],
  [6, 18],
  [10, 22]],
 [[3, 15],
  [7, 19],
  [11, 23]]]

知识点6： Python可视化库matplotlib.pyplot里contour与contourf的区别

原文代码：

  plt.contourf(xx1, xx2, Z, alpha=0.3, cmap=cmap)

contour和contourf都是画三维等高线图的，不同点在于contourf会对等高线间的区域进行填充，区别如下：

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
x=np.array([1,2])
y=np.array([1,2])
z=np.array([[1,2],[2,3]])
plt.xlim(1,2)
plt.ylim(1,2)
colors = ('red', 'blue', 'lightgreen', 'gray', 'cyan')
cmap = ListedColormap(colors[:len(np.unique(z))])  #np.unique(z) Z值剔除重复后有小到大排序 
plt.contourf(x,y,z,cmap=cmap)   ###
plt.show()

在这里插入图片描述

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
x=np.array([1,2])
y=np.array([1,2])
z=np.array([[1,2],[2,3]])
plt.xlim(1,2)
plt.ylim(1,2)
colors = ('red', 'blue', 'lightgreen', 'gray', 'cyan')
cmap = ListedColormap(colors[:len(np.unique(z))])
plt.contour(x,y,z,cmap=cmap)   #
plt.show()

在这里插入图片描述

知识点7：plt.xlim()

原文代码：

 plt.xlim(xx1.min(), xx1.max())
    plt.ylim(xx2.min(), xx2.max())

设置刻度范围

知识点8：python中enumerate（）的用法

原文代码：

for idx, cl in enumerate(np.unique(y)):
        plt.scatter(x=X[y == cl, 0], 
                    y=X[y == cl, 1],
                    alpha=0.8, 
                    c=colors[idx],
                    marker=markers[idx], 
                    label=cl, 
                    edgecolor='black')

enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标，一般用在 for 循环当中。（索引＋值）

语法：
以下是 enumerate() 方法的语法:
enumerate(sequence, [start=0])
参数：
sequence – 一个序列、迭代器或其他支持迭代对象。
start – 下标起始位置。

普通的 for 循环

>>>i = 0
>>> seq = ['one', 'two', 'three']
>>> for element in seq:
...     print i, seq[i]
...     i +=1
... 
0 one
1 two
2 three
for 循环使用 enumerate

>>>seq = ['one', 'two', 'three']
>>> for i, element in enumerate(seq):
...     print i, element
... 
0 one
1 two
2 three

知识点9：numpy unique（）

原文代码同上

unique（）保留数组中不同的值，返回两个参数。

>>> a=np.random.randint(0,5,8) 
>>> a 
array([2, 3, 3, 0, 1, 4, 2, 4]) 

>>> np.unique(a) 
array([0, 1, 2, 3, 4]) 

>>> c,s=np.unique(b,return_index=True) 
>>> c 
array([0, 1, 2, 3, 4]) 
>>> s 
array([3, 4, 0, 1, 5])（元素出现的起始位置）

知识点10： plt.subplots(nrows=1,nclos=2,figsize=(8,4))

#当nrow=2,nclos=2时,代表fig画布被分为四个区域,axs[0][0]表示第一行第一个区域

知识点11：numpy.std() 求标准差numpy.mean() 求平均值

numpy.std() 求标准差的时候默认是除以 n 的，即是有偏的，np.std无偏样本标准差方式为加入参数 ddof = 1；
pandas.std() 默认是除以n-1 的，即是无偏的，如果想和numpy.std() 一样有偏，需要加上参数ddof=0 ，即pandas.std(ddof=0) ；DataFrame的describe()中就包含有std()；

>>> a
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> np.std(a, ddof = 1)
3.0276503540974917
>>> np.sqrt(((a - np.mean(a)) ** 2).sum() / (a.size - 1))
3.0276503540974917
>>> np.sqrt(( a.var() * a.size) / (a.size - 1))
3.0276503540974917
![在这里插入图片描述](https://img-blog.csdnimg.cn/20190225153342850.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MTQ4ODk1Mg==,size_16,color_FFFFFF,t_70)

知识点12：plt.tight_layout() # 紧凑显示图片，居中显示

知识点13：numpy.random.seed()的使用

seed( ) 用于指定随机数生成时所用算法开始的整数值，如果使用相同的seed( )值，则每次生成的随即数都相同，如果不设置这个值，则系统根据时间来自己选择这个值，此时每次生成的随机数因时间差异而不同。

原文demo：

class AdalineSGD(object):
    def __init__(self,aphla=0.01,epoch=10,shuffle=True,random_state=None):
        self.aphla = aphla
        self.epoch = epoch
        self.w_initialized = False
        self.shuffle = shuffle
        if random_state:
            seed(random_state)

编写如下第一份代码：

from numpy import *
num=0
while(num<5):
    random.seed(5)
    print(random.random())
    num+=1

运行结果为：

0.22199317108973948
0.22199317108973948
0.22199317108973948
0.22199317108973948
0.22199317108973948
每次运行的结果都是一样的
修改代码，如下为第二份代码：

from numpy import *
num=0
random.seed(5)
while(num<5):
    print(random.random())
    num+=1

运行结果为：

0.22199317108973948
0.8707323061773764
0.20671915533942642
0.9186109079379216
0.48841118879482914
可以看到，和上一份代码的运行结果不同。这里每次的输出结果都是不一样的。这也就提醒了我们在以后编写代码的时候要明白一点：random.seed(something)只能是一次有效。

知识点13：Numpy.random中shuffle与permutation的区别

原文代码：

  def _shuffle(self,X,y):
        r = np.random.permutation(len(y))

shuffle与permutation的区别

函数shuffle与permutation都是对原来的数组进行重新洗牌（即随机打乱原来的元素顺序）；区别在于shuffle直接在原来的数组上进行操作，改变原来数组的顺序，无返回值。而permutation不直接在原来的数组上进行操作，而是返回一个新的打乱顺序的数组，并不改变原来的数组。

示例：

a = np.arange(12)
print a
np.random.shuffle(a)
print a
print 
a = np.arange(12)
print a
b = np.random.permutation(a)
print b
print a

输出：

[ 0 1 2 3 4 5 6 7 8 9 10 11]
[11 6 4 10 3 0 7 1 9 2 5 8]

[ 0 1 2 3 4 5 6 7 8 9 10 11]
[10 4 8 11 1 7 6 2 0 9 5 3]
[ 0 1 2 3 4 5 6 7 8 9 10 11]

作者：joshuasea
来源：CSDN
原文：https://blog.csdn.net/u013841458/article/details/80922385
版权声明：本文为博主原创文章，转载请附上博文链接！

这里写自定义目录标题

欢迎使用Markdown编辑器

欢迎使用Markdown编辑器

你好！这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。

新的改变

我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：

全新的界面设计 ，将会带来全新的写作体验；
在创作中心设置你喜爱的代码高亮样式，Markdown 将代码片显示选择的高亮样式 进行展示；
增加了 图片拖拽 功能，你可以将本地的图片直接拖拽到编辑区域直接展示；
全新的 KaTeX数学公式 语法；
增加了支持甘特图的mermaid语法¹ 功能；
增加了 多屏幕编辑 Markdown文章功能；
增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能，功能按钮位于编辑区域与预览区域中间；
增加了 检查列表 功能。

功能快捷键

撤销：Ctrl/Command + Z
重做：Ctrl/Command + Y
加粗：Ctrl/Command + B
斜体：Ctrl/Command + I
标题：Ctrl/Command + Shift + H
无序列表：Ctrl/Command + Shift + U
有序列表：Ctrl/Command + Shift + O
检查列表：Ctrl/Command + Shift + C
插入代码：Ctrl/Command + Shift + K
插入链接：Ctrl/Command + Shift + L
插入图片：Ctrl/Command + Shift + G

合理的创建标题，有助于目录的生成

直接输入1次#，并按下space后，将生成1级标题。
输入2次#，并按下space后，将生成2级标题。
以此类推，我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

如何改变文本的样式

强调文本 强调文本

加粗文本 加粗文本

标记文本

~~删除文本~~

引用文本

H₂O is是液体。

2¹⁰ 运算结果是 1024.

插入链接与图片

链接: link.

图片:

带尺寸的图片:

居中的图片:

居中并且带尺寸的图片:

当然，我们为了让用户更加便捷，我们增加了图片拖拽功能。

如何插入一段漂亮的代码片

去博客设置页面，选择一款你喜欢的代码片高亮样式，下面展示同样高亮的 代码片.

// An highlighted block
var foo = 'bar';

生成一个适合你的列表

项目
- 项目
  - 项目

项目1
项目2
项目3

计划任务
完成任务

创建一个表格

一个简单的表格是这么创建的：

项目	Value
电脑	$1600
手机	$12
导管	$1

设定内容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列	第二列	第三列
第一列文本居中	第二列文本居右	第三列文本居左

SmartyPants

SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如：

TYPE	ASCII	HTML
Single backticks	`'Isn't this fun?'`	‘Isn’t this fun?’
Quotes	`"Isn't this fun?"`	“Isn’t this fun?”
Dashes	`-- is en-dash, --- is em-dash`	– is en-dash, — is em-dash

创建一个自定义列表

Markdown

Text-to- HTML conversion tool

Authors

John

Luke

如何创建一个注脚

一个具有注脚的文本。²

注释也是必不可少的

Markdown将文本转换为 HTML。

KaTeX数学公式

您可以使用渲染LaTeX数学表达式 KaTeX:

Gamma公式展示 $\Gamma(n) = (n-1)!\quad\forall n\in\mathbb N$ 是通过欧拉积分

$\Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,.$

你可以找到更多关于的信息 LaTeX 数学表达式here.

新的甘特图功能，丰富你的文章

关于 甘特图 语法，参考这儿,

UML 图表

可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图：:

这将产生一个流程图。:

关于 Mermaid 语法，参考这儿,

FLowchart流程图

我们依旧会支持flowchart的流程图：

关于 Flowchart流程图 语法，参考这儿.

导出与导入

导出

如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ，生成一个.md文件或者.html文件进行本地保存。

导入

如果你想加载一篇你写过的.md文件或者.html文件，在上方工具栏可以选择导入功能进行对应扩展名的文件导入，
继续你的创作。

mermaid语法说明 ↩︎
注脚的解释 ↩︎

乐乐大鱼塘

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python机器学习第二章：机器学习分类算法

1、感知器收敛的前提是两个类别必须是线性可分的，激励函数为阶跃函数。2、Adeline 算法3、（批量）梯度下降随机梯度下降小批次梯度下降知识点1：Python zip()函数原文demodef fit(self,X,y): self.w_ = np.zeros(1+X.shape[1]) self.errors_ = [] f...
复制链接

扫一扫