自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

m0_51066361的博客

原创使用python进行文本相似度分析

然后，定义一个preprocess_text函数来对输入文本进行预处理，包括将文本转换为小写、分词和去除停用词。然后，使用TfidfVectorizer类创建了一个TF-IDF向量化器，并使用它来计算两个文本的TF-IDF向量。最后，使用cosine_similarity函数计算了两个文本之间的余弦相似度得分，并输出了结果。这个代码会输出一个相似度矩阵，其中的每个元素都表示对应的两个文本之间的相似度。接下来，使用cosine_similarity函数计算两个向量之间的余弦相似度，并将结果打印出来。

2023-10-06 23:15:14 1370

原创数据处理之python list

背景：要处理900个npy文件，每个文件包含250*2048即512000个数据，为了进行数据预处理，利用numpy读取这900个numpy数据存入列表train，先对train进行归一化，归一化完后已经使用了好几G内存。Numpy数组转换为python list并减少内存消耗，那么可以使用Numpy的tolist()方法而不是list()。显然，这样是不行的，那就开始优化。此时，上段代码可以使用相同的约14G内存处理完约725份数据，内存的消耗获得了一定的减少。但是仍需进一步的优化。

2023-05-15 23:23:27 349 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

m0_51066361 CSDN认证博客专家 CSDN认证企业博客

码龄4年

IP 属地：福建省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

2: 原创

190万+: 周排名

31万+: 总排名

1720: 访问

: 等级

22: 积分

0: 粉丝

2: 获赞

2: 评论

13: 收藏

私信

关注

热门文章

最新评论

使用python进行文本相似度分析
CSDN-Ada助手: 这是一篇很有启发性的博文，对于使用python进行文本相似度分析提供了很好的指导。希望您能继续分享更多关于自然语言处理和文本挖掘方面的知识和经验。另外，除了TF-IDF和余弦相似度，还可以尝试使用word embedding技术（如word2vec或GloVe）来进行文本相似度分析，这也是一个非常有趣和实用的扩展领域。期待您未来的分享，谢谢！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
数据处理之python list
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/615349315。
数据处理之python list
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

提示

确定要删除当前文章？

取消删除