自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 使用python进行文本相似度分析

然后,定义一个preprocess_text函数来对输入文本进行预处理,包括将文本转换为小写、分词和去除停用词。然后,使用TfidfVectorizer类创建了一个TF-IDF向量化器,并使用它来计算两个文本的TF-IDF向量。最后,使用cosine_similarity函数计算了两个文本之间的余弦相似度得分,并输出了结果。这个代码会输出一个相似度矩阵,其中的每个元素都表示对应的两个文本之间的相似度。接下来,使用cosine_similarity函数计算两个向量之间的余弦相似度,并将结果打印出来。

2023-10-06 23:15:14 1245

原创 数据处理之python list

背景:要处理900个npy文件,每个文件包含250*2048即512000个数据,为了进行数据预处理,利用numpy读取这900个numpy数据存入列表train,先对train进行归一化,归一化完后已经使用了好几G内存。Numpy数组转换为python list并减少内存消耗,那么可以使用Numpy的tolist()方法而不是list()。显然,这样是不行的,那就开始优化。此时,上段代码可以使用相同的约14G内存处理完约725份数据,内存的消耗获得了一定的减少。但是仍需进一步的优化。

2023-05-15 23:23:27 322 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除