tfidf的tf粗暴过滤相似文本的过程二(计算性能优化)

本文详细介绍了使用TF-IDF算法进行文本相似度过滤的过程,特别是针对计算性能的优化策略,旨在提高文本处理效率。
摘要由CSDN通过智能技术生成
思路:
1用了tf及ngram=2的细颗粒来计算文本向量
2.用find_continus_nums找tfidf的索引切片,若直接用索引取值效率低下
3.合并数据的一些小技巧,优化合并速度。
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import linear_kernel
import numpy as np

all_list= ['大雨預報1:16pm:大雨正影響台北東部,市民應提高警覺',
 '大雨預報1:02pm:大雨正影響台北東部,市民應提高警覺',
 '大雨預報12:35pm:大雨正影響台北東部,市民應提高警覺',
 '大雨預報3:46pm:未來一兩小時台湾廣泛地區可能受大雨影響,請提高警覺',
 '大雨預報2:55pm:未來一兩小時台湾廣泛地區可能受大雨影響,請提高警覺',
 '大雨預報5:02pm:未來數小時台湾廣泛地區可能受大雨影響,市民應提高警覺',
 '大雨預報4:56pm:未來數小時台湾廣泛地區可能受大雨影響,市民應提高警覺',
 '大雨預報4:51pm:未來數小時台湾廣泛地區可能受大雨影響,市民應提高警覺',
 '大雨預報6:11am:短期內台湾廣泛地區可能受大雨影響,請提高警覺',
 '大雨預報5:50am:短期內台湾廣泛地區可能受大雨影響,請提高警覺']*10000

vector=TfidfVectorizer(analyzer='char_wb',use_idf=False, ngram_range=(2,2))
tfidf=vector.fit_transform(all_list)

from scipy.sparse
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值