大数据
江水居士
这个作者很懒,什么都没留下…
展开
-
大数据分析:利用LSI算法,求词项与文档的2维表示。
已知词项文档矩阵利用LSI算法,求词项与文档各自的2维表示。from numpy import linalg as lafrom numpy import matA = mat([[1,0,1,0,0,0],[0,1,0,0,0,0],[1,1,0,0,0,0],[1,0,0,1,1,0],[0,0,0,1,0,1]])U,S,T = la.svd(A)//SVD降维# pr...原创 2019-11-11 21:29:45 · 618 阅读 · 1 评论 -
python计算欧氏距离
计算两个点的欧式聚类,在Python里我们可以通过numpy 实现假设有两个List,或者元组的元素a=[1,2,3]b=[3,4,5]这个时候我们是需要先把这两个元素转换成array的形式。import numpy as npvec1 = np.array(a)vec2 = np.array(b)# 方法一distance= np.sqrt(np.sum(np.square...原创 2019-11-05 21:42:59 · 1729 阅读 · 1 评论 -
距离计算方法总结
计算推荐对象的内容特征和用户模型中兴趣特征二者之间的相似性是推荐算法中一个关键部分 ,相似性的度量可以通过计算距离来实现在做很多研究问题时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。本文的目的就是对常用的相似性度量作一个总结。本...原创 2019-11-05 21:34:27 · 1478 阅读 · 0 评论 -
转:Google大数据三篇著名论文中文版
Google File System中文版Google MapReduce中文版Google Bigtable中文版原创 2019-09-15 14:45:56 · 258 阅读 · 0 评论 -
大数据分析:利用SVD分解对数据进行降维
问题描述:写程序利用SVD分解对数据进行降维,并画出降维后各个节点在”新维度“上值的分布。例如对于矩阵 A(mxn) = UΣV^T, U 分解后每一列〖 u〗i 有m个元素对应m个点,记为〖 u〗(i*). 我们画出〖 u〗_1-〖 u〗_2的坐标下的m个点的散点图数据集1:https://github.com/shenghua-liu/HoloScope/blob/master/testd...原创 2019-10-05 20:28:23 · 1975 阅读 · 1 评论