One-hot编码以及TF-IDF方法

One-hot编码

在进行机器学习的时候,我们通常是输入一组特征,然后经过算法,得到结果。机器学习的本质是通过已有的数据,从中得到规律,并且根据规律对未知的值进行预测。那么现实生活中我们想要学习数据,就算它是一个成熟的数据了,也不可能自己把自己处理成最适合机器学习的格式,然后自己把自己输入到算法里。我们是要自己去处理数据的。

例如针对一下数据:

 

 

我们针对样本进行分类,可是一般机器学习需要的是数值类信息,源文件给的是标签信息。一个直观的想法是把它数字化,比如human为1,Penguin为2等。但是这种处理方式会有一个问题。在进行运算的时候是以数值的方式,上面这种方法固然保留了这两个样本不同的信息,但是由于1+1=2,1+2=3。它又添加了别的信息进去,学习的时候可能就会出现错误。针对于这种情况,一般就采用one-hot编码方式解决。

one-hot编码便是是为每个类别生成一个布尔列。这些列中只有一列可以为每个样本取值1。因此,术语直译为一个热编码。

 

one-hot编码便可以解决不额外添加干扰信息的问题,但是他也有缺点,缺点就是增加了特征维度,可能使特征维度过高,从而学习容易出现过拟合等情况。

TF-IDF方法

one-hot在特征提取上属于词袋模型(bag of words)。词袋模型是提取文本特征时常用的一种方法。

假设语料库中有三句话:

  • 我爱中国
  • 爸爸妈妈爱我
  • 爸爸妈妈爱中国

首先,将语料库中的每句话分成单词,并编号:

  • 1:我 2:爱 3:爸爸 4:妈妈 5:中国

然后,用one-hot对每句话提取特征向量得到的每句话的特征向量就是:

  • 我爱中国 -> 1,1,0,0,1
  • 爸爸妈妈爱我 -> 1,1,1,1,0
  • 爸爸妈妈爱中国 -> 0,1,1,1,1

这样就可以从文本信息中提取文本的特征。

一般分析文本的时候,文本的内容很重要。通过词袋模型我们就可以大致判别文本的大概内容。一般我们去挖掘文本中的信息时,例如情感分析,主题判别的时候。不同字词对于一段信息的代表程度,即重要性肯定是不一样的。直观来说,一段话中一个词出现的频率越高,它就越能代表这段话的含义,对于这段话的重要性也就更好,可是有一个问题在于有一些词语例如“的”,“了”或者在爱国主题中“祖国”这种词语出现的非常多,但是这种词语是在语料库中很常见的,并不能很好地表达这段话的信息。比如从爱国主题的文本集中挑出不同的文件的侧重点,这时候祖国并不能表达出这个文本的侧重点。这个时候我们就引入了TF-IDF方法。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

 

词频(TF)表示词条(关键字)在文本中出现的频率。

这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。

TF=在某一文档中词条a出现的次数/该文档中所有的词条数目

 

逆向文件频率 (IDF) :某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。

如果包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力。

IDF=log(语料库文档总数/包含词条w的文档数+1),分母之所以要加1,是为了避免分母为0

 

TF-IDF就是TF*IDF

 

要注意的是:

TF-IDF 采用文本逆频率 IDF 对 TF 值加权取权值大的作为关键词,但 IDF 的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以 TF-IDF 算法的精度并不是很高,尤其是当文本集已经分类的情况下。

在本质上 IDF 是一种试图抑制噪音的加权,并且单纯地认为文本频率小的单词就越重要,文本频率大的单词就越无用。这对于大部分文本信息,并不是完全正确的。IDF 的简单结构并不能使提取的关键词, 十分有效地反映单词的重要程度和特征词的分布情 况,使其无法很好地完成对权值调整的功能。尤其是在同类语料库中,这一方法有很大弊端,往往一些同类文本的关键词被忽视。

而且它也没有考虑特征词的位置因素对文本的区分度,词条出现在文档的不同位置时,对区分度的贡献大小是不一样的。按照传统TF-IDF,往往一些生僻词的IDF(反文档频率)会比较高、因此这些生僻词常会被误认为是文档关键词。同时传统TF-IDF中的IDF部分只考虑了特征词与它出现的文本数之间的关系,而忽略了特征项在一个类别中不同的类别间的分布情况。并且对于文档中出现次数较少的重要人名、地名信息提取效果不佳。
针对于一些不足,后来出现了TF-IDF的改进即TF-IWF,感兴趣的可以自己去查阅。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值