TF-IDF 词袋

def TF_IDF(docList):
    result = dict()
    m = len(docList)
    WFD1 = 0
    distion_word = set(drop_2_to_1_dim(docList))
    leve1,leve2 = [],[]
    for doc in docList:
        n = len(doc)
        tmpTF = np.array([(doc==word).sum()/n for word in distion_word])
        leve1.append(tmpTF)
        tmpIDF = np.array([word in doc for word in distion_word]).astype(int)
        leve2.append(tmpIDF)
    TF = np.array(leve1)
    count_word = np.array(leve2).T.dot(np.ones(m))
    IDF = np.log(m/(count_word+1))
    return TF*IDF
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值