tfidf的tf粗暴过滤相似文本的过程二(计算性能优化)

最新推荐文章于 2024-03-06 15:43:48 发布

sinat_24395003

最新推荐文章于 2024-03-06 15:43:48 发布

阅读量321

点赞数

分类专栏： nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_24395003/article/details/108663332

版权

本文详细介绍了使用TF-IDF算法进行文本相似度过滤的过程，特别是针对计算性能的优化策略，旨在提高文本处理效率。

摘要由CSDN通过智能技术生成

思路：
1用了tf及ngram=2的细颗粒来计算文本向量
2.用find_continus_nums找tfidf的索引切片，若直接用索引取值效率低下
3.合并数据的一些小技巧，优化合并速度。
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import linear_kernel
import numpy as np

all_list= ['大雨預報1:16pm:大雨正影響台北東部,市民應提高警覺',
 '大雨預報1:02pm:大雨正影響台北東部,市民應提高警覺',
 '大雨預報12:35pm:大雨正影響台北東部,市民應提高警覺',
 '大雨預報3:46pm:未來一兩小時台湾廣泛地區可能受大雨影響,請提高警覺',
 '大雨預報2:55pm:未來一兩小時台湾廣泛地區可能受大雨影響,請提高警覺',
 '大雨預報5:02pm:未來數小時台湾廣泛地區可能受大雨影響,市民應提高警覺',
 '大雨預報4:56pm:未來數小時台湾廣泛地區可能受大雨影響,市民應提高警覺',
 '大雨預報4:51pm:未來數小時台湾廣泛地區可能受大雨影響,市民應提高警覺',
 '大雨預報6:11am:短期內台湾廣泛地區可能受大雨影響,請提高警覺',
 '大雨預報5:50am:短期內台湾廣泛地區可能受大雨影響,請提高警覺']*10000

vector=TfidfVectorizer(analyzer='char_wb',use_idf=False, ngram_range=(2,2))
tfidf=vector.fit_transform(all_list)

from scipy.sparse

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

sinat_24395003 CSDN认证博客专家 CSDN认证企业博客

码龄10年

47: 原创

33万+: 周排名

207万+: 总排名

13万+: 访问

: 等级

847: 积分

7: 粉丝

22: 获赞

16: 评论

101: 收藏

私信

关注

热门文章

分类专栏

效率 1篇
transformers 4篇
pytorch 3篇
TexttoSql 7篇
gluonnlp 19篇
gluonts 1篇
numpy 1篇
matplotlib 1篇
scikit-learn 2篇
pandas 2篇
pandas，cx_oracle 1篇
爬虫 1篇
nlp 7篇

最新评论

不均衡样本的sampler构建 Imbalanced Dataset Sampler
unquire2017: 您好，我在运行代码的时候出现了以下的错误，请问有什么解决办法吗 File "/root/anaconda3/envs/ymt3.7/lib/python3.7/site-packages/torch_geometric/loader/imbalanced_sampler.py", line 74, in __init__ y = y[input_nodes] if input_nodes is not None else y IndexError: index -9223372036854775808 is out of bounds for dimension 0 with size 8502230
NoRepeatNGramLogitsProcessor的_calc_banned_ngram_tokens
m0_56998664: 您好，请问您使用的transformer.generation_logits_process NoRepeatNGramLogitsProcesso这个调用方法的transformers是什么版本的，为什么我现在查了所有的transformers版本都没这种调用方式，也找不到这个包
rat-sql registry.py
weixin_44494550: 想问下博主，变量_REGISTRY是什么时候被初始化的，值又是从哪里来的？我调试的时候发下一进去，变量_REGISTRY就是有值的。
transformers的beam_search
不正经的kimol君: 学习了，谢谢分享~
transformers的beam_search
LaoYuanPython: 有幸看到博主刚出的博文!谢谢大神的细致介绍！如此好文,这里必须有一个赞！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。