猿来如此#1-CSDN博客

BERT预训练模型和KMeans结合可以有效提高文本数据的聚类分析能力，提供更具实际意义和语义相关性的聚类结果。

2023-12-06 16:37:38 1215 1

赛题提供了160例（100例训练数据集+60例独立测试数据集）出血性脑卒中患者的个人史、疾病史、发病及治疗相关信息、多次重复的影像学检查（CT平扫）结果及患者预后评估,该部分信息可在“

2023-10-24 22:17:00 864 1

本次主要研究的是在弱监督学习的前提下使用FastText文本分类模型对少量的标注数据进行训练然后再使用训练好的模型去对大量无标签的文本数据进行预测工作。然后建立评价指标来观察FastText模型在弱监督文本分类的表现。

2023-09-13 11:35:01 258 1

在我们使用词频高低作为选取词云图关键字的手段时，我们通常会遇到一些词频高的词语对于整个文本来说并不是很重要的情况。所以我们所做的工作就是在选取词云图关键字时改变其以词频为评判的标准，选用TF-IDF算法输出的高权重词语从而达到提升词云图的效果。

2023-09-11 09:10:14 562

利用Word2Vec工具将文本数据转化成词向量形式，然后我们将所得到的词向量输入到XGBoost模型中依据决策树进行文本分类任务。我们通过这种手段可以获得较为准确的文本分类结果，同时也可以为实验提供关于词向量和文本分类的验证数据，等等。本文以R8数据集为例。

2023-09-06 10:10:02 590 2

此次项目是在对自来水公司进行审计时运用对创新性办法，解决了在面对字符串匹配时候遇到的多变数据形式带来的难题，做到可以在不同类型但有相似属性的字符串中提取数字前后有效字符串，再应用于字符串匹配。项目代码只针对自来水公司提供的用户地址无规则，但是数字锚点的代码思想可以运用到很多工作场景。

2023-09-04 16:09:27 411 3

R8数据集是一个常用的文本分类数据集，包含了8个不同主题的新闻文本样本。而R8数据集的词向量可以保证我们将R8数据集的词向量固定下来，从而古典舞我们的词向量的变化，以免导致我们最终的分类结果变化

2023-09-06

包含R8数据集和R8数据集表情。R8数据集是一个常用的文本分类数据集，用于评估和比较文本分类算法的性能。它由Reuters新闻机构提供，主要包含来自8个不同主题的纯英文新闻文本。

2023-09-06

TA创建的收藏夹 TA关注的收藏夹

TA关注的人