![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 84
ywm_up
这个作者很懒,什么都没留下…
展开
-
【大数据】十一、降维处理(PCA、SVD)
1 主成分分析 PCA主成分分析(Principal-component Analysis, PCA) 是这样一种技术:它对由一系列代表高维空间下的点的元组组成的数据集进行分析,寻找那些让元组尽可能排列成直线的方向。其思想是将元组集合看成矩阵M并求解矩阵MMTMM^TMMT或MTMM^T MMTM的特征向量。这些特征向量构成的矩阵可以看成是高维空间下的刚性旋转。当对原始数据应用上述转换操作时,主特征向最对应的轴就是点最“分散”的方向。更精确的说法是,该轴是数据方差最大的方向。换句话说,点最好可以看成分布在原创 2021-07-09 20:59:06 · 518 阅读 · 0 评论 -
【大数据】十、社会网络图挖掘(Girvan-Newman、拉普拉斯矩阵、Simrank)
文章目录1 社会网络图的聚类1.1 社交图网络的距离计算1.2 中介度1.2 Girvan-Newman算法2 图划分2.1 描述图的一些矩阵2.2 一句拉普拉斯矩阵特征值划分图3 Simrank将社会网络看成图,挖掘人际关系是很有意思的一个研究方向。1 社会网络图的聚类1.1 社交图网络的距离计算定义距离:假设两个节点有边,那么距离足够接近,距离定义为 1。没有边,距离很远,定义为 ∞。1.2 中介度一条边(a, b)的中介度定义为节点对(x, y)的数目,其中(a, b)处于 x 和 y原创 2021-07-09 20:57:47 · 3192 阅读 · 4 评论 -
【大数据】九、推荐系统(基于内容的推荐、协同过滤、UV分解)
文章目录1 效用矩阵2 基于内容的推荐2.1 项模型2.2 文档特征发现2.3 基于 Tag 的项特征获取3 协同过滤3.1 相似度计算3.2 相似对偶性4 效用矩阵降维处理4.1 UV分解4.2 均方根误差(RMSE)度量5 UV 分解的增量式计算1 效用矩阵效用矩阵展示了用户对项的喜好程度。2 基于内容的推荐2.1 项模型项模犁由一些很容易发现的项特征所构成。例如有关电影的特征如下:演员集合导演电影制作年份电影的流派2.2 文档特征发现从文档中找出能够刻画主题的关键词具有原创 2021-07-09 20:53:17 · 1220 阅读 · 3 评论 -
【大数据】八、web广告(Adword贪心、Balance)
文章目录1 在线广告相关问题2 在线和离线区别3 Adword 问题定义3.1 Adword 贪心例题3.2 Balance 算法1 在线广告相关问题在评价广告时,必须要考虑如下几个因素:广告在列表中的位置将对它是否被点击有很大的影响;广告的吸引力可能取决于查询词项;在较精确地估计出点击率之前,所有的广告都应该有展示的机会。2 在线和离线区别能不能看到全部的数据离线算法:将算法所需要的所有数据准备好,然后,算法以任意次序访问数据,最后,算法输出结果。这类算法称为“离线" (off-li原创 2021-07-09 20:51:19 · 669 阅读 · 2 评论 -
【大数据】七、聚类(层次聚类、K-Means、BFR、CURE)
文章目录1 层次聚类1.1 效率1.2 控制层次聚类的规则1.3 非欧空间的距离测量2 K-means 算法3 BFR 算法4 CURE 算法5 非欧空间下的聚类5.1 GRGPF 算法1 层次聚类层次聚类一开始将每个点都看成一个簇,然后合并簇。对于层次聚类算法,必须提前确定:(1) 簇如何表示?(簇心代表簇(2) 如何选择哪两个簇进行合并?(最小欧式距离合并(3) 簇合并何时结束?(簇的数量1.1 效率普通的方法实践复杂度为 O(n^3)当采用优先级队列的时候,以空间换时间,时间复杂度为原创 2021-07-09 20:50:15 · 1786 阅读 · 0 评论 -
【大数据】六、频繁项集与关联规则(频繁项集、关联规则、A-Priori、PCY)
文章目录1 定义1.1 频繁项集1.2 关联规则2 A-Priori 算法2.1 例题3 更大数据集在内存中的处理3.1 PCY 算法3.2 多阶段算法3.3 多哈希算法4 有限扫描算法4.1 随机化算法4.2 SON 算法4.3 Toivonen 算法5. 流中频繁项计数1 定义1.1 频繁项集支持度是项出现的次数支持度是频繁项集的阈值假定有个支持度闾值(support threshold) s 。如果I是一个项集, I的支持度(support) 是指包含I (即I是购物篮中项集的子集)的购原创 2021-07-09 20:43:48 · 13713 阅读 · 0 评论 -
【大数据】五、链接分析(PageRank、Topic-sensetive PageRank)
文章目录1. PageRank1.1 普通 PageRank 算法例题2. 避免终止节点2.1 消除终止节点2.2 采集器陷阱及“抽税”法(自环与参数β)3. 面向主题的 PageRank1. PageRank词项作弊:将词项重复几千次将词的颜色和背景色设成一致为了对抗词项作弊,谷歌提出两项创新:使用了PageRank技术来模拟Web冲浪者的行为,较多冲浪者访问的网页的重要性被认为高于那些较少冲浪者访问的网页。在判断网页内容时,不仅只考虑网页上出现的词项,还考虑指向该网页的链接中或周围所原创 2021-07-09 20:40:54 · 1180 阅读 · 0 评论 -
【大数据】四、数据流挖掘(布隆过滤、矩估计)
文章目录1. 数据抽样1.1 随机数为0则存储1.2 代表性样本的获取1.3 一般的抽样问题1.4 习题2. 流过滤2.1 布隆过滤器2.2 布隆过滤 false positive 概率2.3 例题3. 流中独立元素的数目统计3.1 独立元素计数问题3.2 FM 算法3.3 组合估计4. 矩估计4.1 0阶矩(不为0的个数4.2 1阶矩(长度4.3 2阶矩(元素出现次数的平方和4.4 高阶矩4.4 例题5. 窗口内计数问题5.1 DGIM算法6. 衰减窗口数据流挖掘的目的:如何从流中抽取有用的样本,过滤掉原创 2021-07-09 20:37:56 · 1094 阅读 · 0 评论 -
【大数据】三、相似项发现(Jaccard、Shingling、MinHashing)
文章目录1. Jaccard1.1 例题2. shingling2.1 k-shingle2.2 k 值大小的选择2.3 例题3. MinHashing3.1 minhashing 作用:压缩3.2 算法步骤、例题4. LSH 行条化策略的分析5. 距离测度1. Jaccard定义 Jaccard 相似度计算公式:定义 Jaccard 距离:1.1 例题不重复重复 (bag),最大值为 1 / 22. shingling将文档用短字符集合来表示2.1 k-shinglech原创 2021-07-09 20:33:53 · 1043 阅读 · 0 评论