- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 Simhash相似度计算的两种方法&Python实现示例
参考原文:浅谈simhash及其python实现补充参考:python使用simhash实现文本相似性对比(全代码展示)代码#%%%% 剔除相似评论#simhashimport jiebaimport jieba.analyseimport numpy as npimport json class Simhash: def __init__(self,content): self.simhash_num=self.simhash(conten.
2022-03-31 17:40:56
1320
原创 文本分析——机械压缩
主要用于处理“酒店真不错呀真不错呀真不错呀”、“酒店好好好好好好”类似文本,但对于第二类文本会保留两个相同的词,即最后结果为“酒店好好”,避免将“等等”、“哈哈”等叠词压缩。代码def compress(content): """机械压缩""" import numpy as np com_content = content[0] com_content_list = [content[0]] i = 1 while i < len.
2022-03-31 16:00:18
395
原创 SAS多元统计代码
【例1】主成分分析&图解*进行主成分分析(此处为原数据未进行标准化的S型分析);*方法1:保留所有主成分;procprincompdata=tmp1.economic out=prin;run;*方法2:保留指定数量的主成分个数;procprincompdata=tmp1.economic out=prin n=3/*n=3保留3个主成分*/*主成分图解;plot=pattern(ncomp=2) /*图解变量(以两个主成分为横纵坐标)*/plo...
2021-12-08 16:06:38
1639
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人