简单感知器实现中文词性标注

最新推荐文章于 2024-05-13 20:51:25 发布

pku_zzy

最新推荐文章于 2024-05-13 20:51:25 发布

阅读量2.1k

点赞数 1

分类专栏： Machine Learing

本文链接：https://blog.csdn.net/PKU_ZZY/article/details/59628108

版权

Machine Learing 专栏收录该内容

45 篇文章 1 订阅

订阅专栏

简单感知器实现中文词性标注

感知器算法

感知器可以认为是一个内置权重 $weight$ 的分类器，对于输入特征 $features$ ，输—出 $h(features)=weight^T\dot \ feature$ 。

感知器对输入是否属于这个类别估计的输出 $predict(features)=h(features)$ 。

那么感知器一般用于二分类，对于中文词性划分这个多分类问题，可以准备多个感知器组成一层神经网络:
$tag^*=arg\ max_{tag} \{h_{tag}(features) \}$ 为神经网络判断的类别输出。

神经网络整体输出为 $predictTag(features) = arg\ max_{tag} predict_{tag}(features)$ 。

然后对于一个训练样本 $[features,\ tag ]$ ，如果对于神经网络 $predictTag(features)$ 正确，则不做处理，否则对于神经网络中的正确和错误标签的感知器 $weight$ 做出相应调整。迭代一定轮此后认为训练结束。

抽特征

对于句子中的第 $i$ 个位置，可以抽出的特征有 $word[i]，word[i-1]，word[i+1]，tag[i-1]$ （如果对应的位置越界了，则用BEGIN, END等符号代替特征）等等，或者再增加窗口长度，增加额外的特征。

训练算法

1.构造初始网络

根据读入的训练数据，构造初始神经网络，可以简单地把权重设置为特征出现的次数。

2.迭代训练

我的迭代训练算法完整实现如下。


def trainNet():
    for turn in range(ITER_ROUNDS):
        correct = 0
        total = 0
        for i in range(record.size):
            tagPredict = predictTag(record.features[i])
            tagTruth = record.tag[i]
            total += 1
            if tagPredict != tagTruth:
                net[tagPredict].upgrade(record.features[i], -1 * LEARNING_RATE)
                net[tagTruth].upgrade(record.features[i], 1 * LEARNING_RATE)
            else:
                correct += 1
        print('iter_round = %3d, Accuracy in train set = %.5f' % (turn + 1, correct / total))

而upgrade()算法为感知器的调整算法，实现如下

    def upgrade(self, features, value):
        for feature in features:
            if feature in self.weight:
                self.weight[feature] += value