UoG Text as Data Lecture3

最新推荐文章于 2022-04-19 16:45:42 发布

JYY_JYY_

最新推荐文章于 2022-04-19 16:45:42 发布

阅读量275

点赞数

分类专栏： Text As Data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41157876/article/details/105131254

版权

Text As Data 专栏收录该内容

6 篇文章 2 订阅

订阅专栏

Clustering

在TaD中，我们会把相似度高的document聚为一类，可以用来给用户作推荐系统。之后的课程中，会把term聚类

聚类算法是unsupervised的，即没有labelled training data，也没有正确答案。

聚类过程：

1. Derive a document representation – Typically, vectors of weighted terms 文章向量化

2. Measure similarity between documents 计算相似度

3. Apply a clustering method 应用聚类算法

4. Check the validity/quality of the clustering 评估

聚类的关键：

1. Single level vs. multi-level hierarchical partitioning (often, multi-level hierarchical partitioning is desirable)划分方法

2. Separation of clusters聚类划分Exclusive (e.g., one object belongs to only one cluster) vs. overlapping (e.g., one object may belong to more than one cluster)一个object可不可以被分到多个cluster里（是否能重叠）

3. Hard versus fuzzy硬划分或模糊划分，硬聚类是指数据集中每个样本只能划分到一个簇的算法，例如k-means算法。软聚类（模糊聚类）是指算法可以将一个样本划分到一个或者多个簇，依据概率。

1） K-means

Partitioning algorithm: clusters are represented as centroids (“center of mass”)通过每个类的质心

优点：收敛的快

缺点：对随机的初始点敏感；数据量大了之后算法复杂度高

怎么取k：

1.Elbow method

纵坐标distortion 表示： Average sum of squared distances of each point to its centroid

找拐点最大的那个k

2. Silhouette coefficient

a表示组内的平均距离，b表示和组外所有object的平均距离。a应该越小越好，b应该越大越好

2） Mini K-means

数据量太大考虑用Mini Batch K-Means(通常样本数>10000)，效果没差太多，但是省去很多时间

迭代步骤：
1：从数据集中随机抽取object分配给最近的质心（Kmeans则是所有obect都要计算）
2：更新质心

3）Hierarchical clustering

参照 https://blog.csdn.net/andy_shenzl/article/details/83783469

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

JYY_JYY_ CSDN认证博客专家 CSDN认证企业博客

码龄7年

146: 原创

24万+: 周排名

7万+: 总排名

6万+: 访问

: 等级

2018: 积分

222: 粉丝

232: 获赞

40: 评论

356: 收藏

私信

关注

热门文章

分类专栏

笔记提纲 6篇
设计模式 20篇
计算机基础 4篇
网络通信 4篇
分布式 1篇
java 12篇
LeetCode 11篇
JAVA多线程 12篇
JVM 6篇
Redis 14篇
MySQL 8篇
Spring 6篇
idea
netty 7篇
ERROR 4篇
kafka 3篇
算法方向 1篇
力扣 1篇
复习 1篇
SSM 4篇
Mybatis 1篇
Text As Data 6篇
Big Data
l
LINUX 6篇

最新评论

Java日志体系概述
百锦再@新空间代码工作室: 这篇《Java日志体系概述》的文章真是驾轻就熟地揭开了Java日志体系的神秘面纱，让人如沐春风般畅快淋漓地领略到其中的奥妙与精髓。作者无疑是一位精湛的大师，用铿锵有力的文字和清晰深入的分析，为读者呈现出一个完整而生动的图景，让人不禁为其深厚的学识和卓越的表达技巧而佩服不已。这样一篇文章，无疑是每个Java开发者必读之作，值得珍藏和细细品味。愿更多人能够在这篇文章中找到启迪与指引，不断提升自己的技术水平，为Java编程世界增添更多精彩的色彩！
Java stream相关案例记录
CSDN-Ada助手: 推荐 Java 技能树：https://edu.csdn.net/skill/java?utm_source=AI_act_java
《深入理解kafka-核心设计与实践原理》
普通网友: 写的很详细，感谢博主的分享。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
《深入理解kafka-核心设计与实践原理》第一章：概念
普通网友: 优质好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
《从Paxos到Zookeeper》——第五、六章：经典应用场景
普通网友: 干货满满，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。