思路: 1用了tf及ngram=2的细颗粒来计算文本向量 2.用find_continus_nums找tfidf的索引切片,若直接用索引取值效率低下 3.合并数据的一些小技巧,优化合并速度。
from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import linear_kernel import numpy as np all_list= ['大雨預報1:16pm:大雨正影響台北東部,市民應提高警覺', '大雨預報1:02pm:大雨正影響台北東部,市民應提高警覺', '大雨預報12:35pm:大雨正影響台北東部,市民應提高警覺', '大雨預報3:46pm:未來一兩小時台湾廣泛地區可能受大雨影響,請提高警覺', '大雨預報2:55pm:未來一兩小時台湾廣泛地區可能受大雨影響,請提高警覺', '大雨預報5:02pm:未來數小時台湾廣泛地區可能受大雨影響,市民應提高警覺', '大雨預報4:56pm:未來數小時台湾廣泛地區可能受大雨影響,市民應提高警覺', '大雨預報4:51pm:未來數小時台湾廣泛地區可能受大雨影響,市民應提高警覺', '大雨預報6:11am:短期內台湾廣泛地區可能受大雨影響,請提高警覺', '大雨預報5:50am:短期內台湾廣泛地區可能受大雨影響,請提高警覺']*10000 vector=TfidfVectorizer(analyzer='char_wb',use_idf=False, ngram_range=(2,2)) tfidf=vector.fit_transform(all_list) from scipy.sparse
tfidf的tf粗暴过滤相似文本的过程二(计算性能优化)
最新推荐文章于 2024-03-06 15:43:48 发布
本文详细介绍了使用TF-IDF算法进行文本相似度过滤的过程,特别是针对计算性能的优化策略,旨在提高文本处理效率。
摘要由CSDN通过智能技术生成