text-clustering

文章介绍了如何利用TheTextClusteringrepository中的工具对大量网络样本进行主题聚类,通过145个初始聚类对1500万个样本进行分配,并对主题进行教育程度评分,旨在创建适合教育环境的材料。模型如sentence-transformers可用于文本嵌入和聚类分析。
摘要由CSDN通过智能技术生成

The Text Clustering repository contains tools to easily embed and cluster texts as well as label clusters semantically

example

我们的目标是在随机的网络样本中找到主题和他们的教育分数。这些主题用于创建合成数据生成的提示,并帮助我们理解所涵盖的领域范围。最初,我们对100,000个样本进行了聚类,得到145个聚类。然后使用文本聚类的推理模式将1500万个样本分配到这些聚类中;然而,其中一半不适合任何集群,并被排除在提示创建之外。

下面的例子是来自同一集群的网络样本,确定它们有共同的主题,例如:哲学,生活方式,线性代数,生物化学,经济学
另外,确定示例中的主题是否
大致适合作为大学/学校教材,同时要注意排除任何敏感/不适当/无关的内容,
包括但不限于性,露骨暴力,广告和诈骗,以及其他非学术主题。考虑广泛的内容,包括科学,
教育,历史,文化和实际应用,并对这些主题的教育程度进行评分,从1到10,1表示非常不教育
而且不适合在教育环境中,也不适合教育程度高的环境。输出格式应该是这样的:Topic: the_topic, Educational value rating: score。

“使用三个单词(逗号分隔)
描述上述文本中的一般主题。在任何情况下都不要使用枚举。\
示例格式:树,猫,消防员”

模型下载

https://blog.csdn.net/m0_65609016/article/details/134020029
https://public.ukp.informatik.tu-darmstadt.de/reimers/sentence-transformers/v0.2/

sentence-transformers

https://zhuanlan.zhihu.com/p/457876366

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值