【Python机器学习】朴素贝叶斯——使用朴素贝叶斯分类器从个人广告中获取区域倾向

zhangbin_237

于 2024-07-29 16:58:38 发布

阅读量125

点赞数 5

分类专栏： Python机器学习文章标签：机器学习 python 人工智能分类算法

本文链接：https://blog.csdn.net/weixin_39407597/article/details/140774199

版权

Python机器学习专栏收录该内容

117 篇文章 1 订阅

订阅专栏

朴素贝叶斯分类器有大量应用，下面这个例子来自某国两个城市的人群，通过分析这些人发布的征婚广告信息，来比较这两个城市的人们在广告用词上是否不同。如果结论确实是不同，那么他们各自的常用词是哪些？

具体步骤：

1、收集数据：从RSS源收集数据

2、准备数据：将文本文件解析成词条向量

3、分析数据：检查词条确保解析的正确性

4、训练算法

5、测试算法：观察错误率，确保分类器可用。可以修改切分程序，以降低错误率，提高分类结果

6、使用算法：构建一个完整的程序，封装所有内容。给定两个RSS源，该程序会显示最常用的公共词。

下面将使用来自不同城市的广告训练一个分类器，然后观察分类器的效果。我们的目的并不是使用该分类器进行分类，而是通过观察单词和条件概率值来发现与特定城市相关的内容。

收集数据：导入RSS源

使用Universal Feed Parser是Python最常用的RSS程序库。

def calcMostFreq(vocabList,fullText):
    import operator
    freqDict={}
    for token in vocabList:
        freqDict[token]=fullText.count(token)
    sortedFreq=sorted(freqDict.iteritems(),key=operator.itemgetter(1),reverse=True)
    return sortedFreq[:30]

def localWords(feed1,feed0):
    import operator
    docList=[]
    classList=[]
    fullText=[]
    minLen=min(len(feed1['entries']),len(feed1['entries']))
    for i in range(minLen):
        wordList=textParse(feed1['entries'][i]['summary'])
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        wordList=textParse(feed0['entries'][i]['summary'])
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    vocabList=createVocabList(docList)
    #去掉出现次数最高的那些词
    top30Words=calcMostFreq(vocabList,fullText)
    for pairW in top30Words:
        if pairW[0] in vocabList:
            vocabList.remove(pairW[0])
    trainingSet=list(range(2*minLen))
    testSet=[]
    for i in range(20):
        randIndex=int(random.uniform(0,len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])
    trainMat=[]
    trainClasses=[]
    for docIndex in trainingSet:
        trainMat.append(bagOfWords2Vec(vocabList,docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V,p1V,pSpam=trainNBO(array(trainMat),array(trainClasses))
    errorCount = 0
    for docIndex in testSet:
        wordVector = bagOfWords2Vec(vocabList, docList[docIndex])
        # 对测试集分类
        if classifyNB(array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
            errorCount = errorCount + 1
    print('错误率：', float(errorCount) / len(testSet))

分析数据：显示地域相关的用词

先对向量pSF与pNY进行排序，然后按照顺序打印：

def getTopWords(ny,sf):
    import operator
    vocabList, p0V, p1V = localWords(ny, sf)
    topNY = [];
    topSF = []
    for i in range(len(p0V)):
        if p0V[i] > -6.0: topSF.append((vocabList[i], p0V[i]))
        if p1V[i] > -6.0: topNY.append((vocabList[i], p1V[i]))
    sortedSF = sorted(topSF, key=lambda pair: pair[1], reverse=True)
    print("SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**")
    for item in sortedSF:
        print(item[0])
    sortedNY = sorted(topNY, key=lambda pair: pair[1], reverse=True)
    print("NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**")
    for item in sortedNY:
        print(item[0])

函数getTopWords()使用两个RSS源作为输入，然后训练兵测试朴素贝叶斯分类器，返回使用的概率值。然后创建两个列表作为元组的存储。与之前返回排名最高的X个单词不同，这里可以返回大于某个阈值的所有词。这些元组会按照它们的条件概率进行排序。