python实现adaboost算法

数据集为:
在这里插入图片描述
代码实现:

import pandas as pd
import numpy as np
import math

# 导入初始数据
data = [(0, 1, 3, -1),
        (0, 3, 1, -1),
        (1, 2, 2, -1),
        (1, 1, 3, -1),
        (1, 2, 3, -1),
        (0, 1, 2, -1),
        (1, 1, 2, 1),
        (1, 1, 1, 1),
        (1, 3, 1, -1),
        (0, 2, 1, -1)]

data = pd.DataFrame(data, index=[i for i in range(1, len(data) + 1)],
                    columns=["body", "Business capability", "development potential", "classification"])
print(data)
# 筛选出单层决策树(初步筛选)
m, n, z = len(data), 0, 0  # 计数
lis = []
flag = 0
for i in range(len(data.columns) - 1):
    v = (max(data.iloc[:, i]) - min(data.iloc[:, i])) / 10  # 设定步长为10
    a = [i for i in np.arange((min(data.iloc[:, i]) - v), max(data.iloc[:, i]) + v, v)]  # 生成第二次出现的列表
    for j in a:
        for k in range(len(data)):
            # n 小于等于分类点为-1, 大于分类点为1
            if (j >= data.iloc[k, i] and data.iloc[k, 3] == -1) or (j < data.iloc[k, i] and data.iloc[k, 3] == 1):
                n = n + 1
            # z 大于等于分类点为-1, 小于分类点为1
            elif (j <= data.iloc[k, i] and data.iloc[k, 3] == -1) or (j > data.iloc[k, i] and data.iloc[k, 3] == 1):
                z = z + 1
        if n > z:
            flag = 1
            lis.append((i, j, n, 1 - n / m, flag))
        else:
            flag = -1
            lis.append((i, j, z, 1 - z / m, flag))
        n, z = 0, 0
# flag = 1 表示大于分类点为正,小于等于为负 flag = -1 表示大于等于分类点为负,小于为正
data1 = pd.DataFrame(lis, index=[i for i in range(1, len(lis) + 1)],
                     columns=["Partition attribute", "Dividing point", "Correct number", "error rate",
                              "Classification method"])
print("-" * 100)
# print(data1)
# print("-" * 100)
# 筛选弱分类器 (错误率小于0.2的分类器保留)
lis1 = []
for i in range(len(data1)):
    if data1.iloc[i, 3] >= 0.4:
        lis1.append(i + 1)
data1.drop(index=lis1, inplace=True)
data1.reset_index(drop=True, inplace=True)  # 重新排序index
data1.set_axis([i for i in range(1, len(data1) + 1)], inplace=True)  # 将index排序从1开始
# print(data1)
# 进行adaboost
# 每个数据点的权重
lis2 = [0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]
# 每个数据点分类正确或错误
alphalist = []  # 记录每个弱分类器的alpha
alpha = 1
lis4 = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
for i in range(len(data1)):
    Z = 0  # 规范化因子
    # a1 为第几个属性 a2 为分割点 a3为flag
    lis3 = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]  # 记录每个点的正确或者错误情况
    a1, a2, a3 = data1.iloc[i, 0], data1.iloc[i, 1], data1.iloc[i, 4]
    # print(a1, a2, a3)
    for j in range(len(data)):
        # flag = 1 表示大于分类点为正,小于等于为负 flag = -1 表示大于等于分类点为负,小于为正
        # 判别函数
        if a3 == 1:
            if (data.iloc[j, a1] > a2 and data.iloc[j, 3] == 1) or (data.iloc[j, a1] <= a2 and data.iloc[j, 3] == -1):
                lis3[j] = 1
            else:
                lis3[j] = -1
        else:
            if (data.iloc[j, a1] >= a2 and data.iloc[j, 3] == -1) or (data.iloc[j, a1] < a2 and data.iloc[j, 3] == 1):
                lis3[j] = 1
            else:
                lis3[j] = -1
    # print(lis3)
    # 求误差率
    e = 0
    for j in range(len(lis3)):
        if lis3[j] == -1:
            e = e + lis2[j] * lis3[j] * -1
    # print(e)
    alpha = 1 / 2 * math.log((1 - e) / e)
    for j in range(len(lis2)):
        Z = Z + math.exp(-alpha * lis3[j])
    # 权重
    for j in range(len(lis2)):
        lis2[j] = lis2[j] * math.exp(-alpha * lis3[j]) / Z
    # print(lis2)
    alphalist.append(alpha)
# print(alphalist)
data1["coefficient"] = alphalist
# 显示所有列
pd.set_option('display.max_columns', None)
# 显示所有行
pd.set_option('display.max_rows', None)
print(data1)

输出结果为:
在这里插入图片描述
其中coefficient为各自弱分类器的系数

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

抽象带篮子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值