最大熵模型实现文本分类

最新推荐文章于 2020-11-06 22:13:28 发布

littlely_ll

最新推荐文章于 2020-11-06 22:13:28 发布

阅读量3.1k

点赞数 4

分类专栏：机器学习自然语言处理文章标签：最大熵模型 GIS 自然语言处理机器学习

本文链接：https://blog.csdn.net/littlely_ll/article/details/79082776

版权

本文介绍如何运用最大熵模型进行文本分类，参考了李航的《统计学习方法》和皮果提的最大熵学习笔记。采用GIS算法进行训练，提供了Python实现代码，旨在帮助理解最大熵模型。

摘要由CSDN通过智能技术生成

最大熵模型的理论部分可以参考李航的《统计学习方法》或皮果提的最大熵学习笔记，本次使用的训练算法为GIS（Generalized Iterative Scaling），这个Python代码主要是作为理解最大熵模型而用。

# -*- coding: utf-8 -*-

from collections import defaultdict
import math

class MaxEnt(object):
    def __init__(self):
        self.feats = defaultdict(int)
        self.trainset = []  #训练集
        self.labels = set() #标签集

    def load_data(self,file):
        for line in open(file):
            fields = line.strip().split()
            if len(fields) < 2: continue    #特征数要大于等于2列
            label = fields[0]   #默认第一列为标签
            self.labels.add(label)
            for f in set(fields[1:]):