《机器学习》课后题7.3
拉普拉斯修正后的朴素贝叶斯
要特地提醒一下,pandas的方差是无偏样本方差,numpy的方差是样本方差
书上152页用的显然是pandas中的,不然算出来连续属性的条件概率会有误差
关于这里的方差具体用哪一种暂时还没有看到特别的说法,只要始终用同一种应该不会影响最后的判断结果
python代码
import numpy as np
import pandas as pd
Data = np.array([
[1, 1, 1, 1, 1, 1, 0.697, 0.460, 1],
[2, 1, 2, 1, 1, 1, 0.774, 0.376, 1],
[2, 1, 1, 1, 1, 1, 0.634, 0.264, 1],
[1, 1, 2, 1, 1, 1, 0.608, 0.318, 1],
[3, 1, 1, 1, 1, 1, 0.556, 0.215, 1],
[1, 2, 1, 1, 2, 2, 0.403, 0.237, 1],
[2, 2, 1, 2, 2, 2, 0.481, 0.149, 1],
[2, 2, 1, 1, 2, 1, 0.437, 0.211, 1],
[2, 2, 2, 2, 2, 1