- 博客(2)
- 收藏
- 关注
原创 使用python进行文本相似度分析
然后,定义一个preprocess_text函数来对输入文本进行预处理,包括将文本转换为小写、分词和去除停用词。然后,使用TfidfVectorizer类创建了一个TF-IDF向量化器,并使用它来计算两个文本的TF-IDF向量。最后,使用cosine_similarity函数计算了两个文本之间的余弦相似度得分,并输出了结果。这个代码会输出一个相似度矩阵,其中的每个元素都表示对应的两个文本之间的相似度。接下来,使用cosine_similarity函数计算两个向量之间的余弦相似度,并将结果打印出来。
2023-10-06 23:15:14 1245
原创 数据处理之python list
背景:要处理900个npy文件,每个文件包含250*2048即512000个数据,为了进行数据预处理,利用numpy读取这900个numpy数据存入列表train,先对train进行归一化,归一化完后已经使用了好几G内存。Numpy数组转换为python list并减少内存消耗,那么可以使用Numpy的tolist()方法而不是list()。显然,这样是不行的,那就开始优化。此时,上段代码可以使用相同的约14G内存处理完约725份数据,内存的消耗获得了一定的减少。但是仍需进一步的优化。
2023-05-15 23:23:27 322 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人