假设要对邮件进行分类(spam/non-spam)。为了用向量描述我们的邮件,可以保存所有训练集中的每一个单词,总共有n个不同的单词(比如说总共有50000个不同的单词,通常对于一些叫做stop-word的词不做统计,因为它们一般不提供有用的信息,比如the、a、is这种),那么一封邮件就可以用一个n维的向量表示,邮件中有某个词(字典中的第i个词),那么向量的第i维就是1,否则是0,比如:
类标签y只有0、1两种值,即
假设要对邮件进行分类(spam/non-spam)。为了用向量描述我们的邮件,可以保存所有训练集中的每一个单词,总共有n个不同的单词(比如说总共有50000个不同的单词,通常对于一些叫做stop-word的词不做统计,因为它们一般不提供有用的信息,比如the、a、is这种),那么一封邮件就可以用一个n维的向量表示,邮件中有某个词(字典中的第i个词),那么向量的第i维就是1,否则是0,比如:
类标签y只有0、1两种值,即