bag-of-word和tf-idf

 

  1. Bag of words

Bag-of-words 是一种忽略文本的语法和语序的模型,用一组无序的单词(words)以及对应的特征列来表示一个文档(目前在cv领域用的多,将图像的的特征当作单词),下面有一个具体的例子:

 1)John likes to watch movies. Mary likes too.

 2)John also likes to watch football games.

根据上面的文档构建一个字典:

{"John": 1, "likes": 2, "to": 3, "watch": 4, "movies": 5, "also": 6, "football": 7, "games": 8, "Mary": 9, "too": 10}

然后根据上面的字典可以用向量的形式表现出两个文档:

1)[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]

2)[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

            

    2. TF-IDF

TFIDF是Term Frequency - Inverse Document Frequency的缩写,TF反应一个词在当前文档中的词频,而IDF反应一个词在所有文档出现的频率,如果一个词在所有文档中出现的频率比较高那么对应IDF值比较低

      1) TF:一个词在当前文档中出现的次数比上当前文档的词汇量:

2) IDF: 文档总数N与一个词在所有文档出现的文档数相比

                    

      3) TF-IDF

                                                

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值