今天接了一个单子,主要是做基于机器学习的邮件分类算法的研究:比较简单代码如下所示:
源码如下所示:
#!/usr/bin/python
# -*- coding utf-8 -*-
import numpy as np
def loadFile(filename):
"""
函数说明:
加载数据文件
:param filename:
文件名
:return:
contentList - 切分邮件内容得到的词条
classVec - 类别标签向量
"""
file = open(filename)
contentList = []
classVec = []
contents = file.readlines()
for line in contents:
content = line.strip('\n').split(' ') #以空格为分割符,切分邮件的内容,得到该邮件对应的词条
classVec.append(int(content[0])) #取出邮件的类别标签
del(content[0]) #删掉词条中的类别标签
contentList.append(content)
return contentList, classVec
def createVocabList(dataSet):
"""
函数说明:
根据训练数据,生成一个词汇表
:param dataSet:
切分所有邮件得到的词条
:return:
list(vocabSet) - 使用训练数据生成的不重复的词汇表
"""