【机器学习算法】之朴素贝叶斯的实现

最新推荐文章于 2021-12-13 21:38:45 发布

messiran10

最新推荐文章于 2021-12-13 21:38:45 发布

阅读量533

点赞数

分类专栏： python数据挖掘机器学习算法练习

本文链接：https://blog.csdn.net/messiran10/article/details/50807904

版权

算法练习同时被 3 个专栏收录

72 篇文章 0 订阅

订阅专栏

机器学习

29 篇文章 0 订阅

订阅专栏

python数据挖掘

13 篇文章 0 订阅

订阅专栏

为了加深对机器学习算法的理解，以及熟悉python,pandas,scikit-learn。现在自己实现一下主要的机器学习算法，程序记录如下：

决策树类的实现程序：

from numpy import *

def loadDataSet():
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0,1,0,1,0,1]    #1 is abusive, 0 not
    return postingList,classVec 
def gen_label_prob(label):
    sample_len = len(label)
    label_dic = {}
    for label_val in label:
        label_dic[label_val] = label_dic.get(label_val,0)+1
    for key in label_dic.keys():
        label_dic[key]=float(label_dic[key])/sample_len
    return label_dic

def gen_condi_prob(train_data,label,label_dic):
    data_len = len(train_data)
    label_set = set(label)
    res_dic={}
    for data_list in train_data:
        for label_val in label_set:
            for curr_x in data_list:
                key = tuple([curr_x,label_val])
                res_dic[key] = res_dic.get(key,0)+1

    for key in res_dic.keys():
        res_dic[key] = float(res_dic[key])/(data_len*label_dic[key[1]])
    return res_dic,label_set

def predict(test,res_dic,label_set,label_dic):
        prob = {}
        for label in label_set:
            for curr_x in test:
                key=tuple([curr_x,label])
                prob[label]=prob.get(label,1)*res_dic.get(key,0)
        max_prob=0;max_label=0
        for key in prob.keys():
            prob[key]=prob[key]*label_dic[key]
            if(prob[key]>max_prob):
                max_label=key
                max_prob=prob[key]
        return max_label

def model_test():
    train_data,train_label = loadDataSet()
    label_dic=gen_label_prob(train_label)
    res_dic,label_set=gen_condi_prob(train_data,train_label,label_dic)
    #x=['quit', 'buying', 'worthless', 'food', 'stupid']
    x=['stop']
    res_label = predict(x,res_dic,label_set,label_dic)
    print res_label