- 博客(6)
- 收藏
- 关注
原创 Bert模型对文本聚类任务的应用与提升
BERT预训练模型和KMeans结合可以有效提高文本数据的聚类分析能力,提供更具实际意义和语义相关性的聚类结果。
2023-12-06 16:37:38 1215 1
原创 2023研究生数学建模大赛(华为杯)
赛题提供了160例(100例训练数据集+60例独立测试数据集)出血性脑卒中患者的个人史、疾病史、发病及治疗相关信息、多次重复的影像学检查(CT平扫)结果及患者预后评估,该部分信息可在“
2023-10-24 22:17:00 864 1
原创 FastText模型与弱监督学习在分类任务的应用
本次主要研究的是在弱监督学习的前提下使用FastText文本分类模型对少量的标注数据进行训练然后再使用训练好的模型去对大量无标签的文本数据进行预测工作。然后建立评价指标来观察FastText模型在弱监督文本分类的表现。
2023-09-13 11:35:01 258 1
原创 TF-IDF算法在词云图生成时的提升
在我们使用词频高低作为选取词云图关键字的手段时,我们通常会遇到一些词频高的词语对于整个文本来说并不是很重要的情况。所以我们所做的工作就是在选取词云图关键字时改变其以词频为评判的标准,选用TF-IDF算法输出的高权重词语从而达到提升词云图的效果。
2023-09-11 09:10:14 562
原创 Word2Vec模型与XGBoost分类器结合使用——NLP
利用Word2Vec工具将文本数据转化成词向量形式,然后我们将所得到的词向量输入到XGBoost模型中依据决策树进行文本分类任务。我们通过这种手段可以获得较为准确的文本分类结果,同时也可以为实验提供关于词向量和文本分类的验证数据,等等。本文以R8数据集为例。
2023-09-06 10:10:02 590 2
原创 python字符串匹配+数字锚点re升阶版
此次项目是在对自来水公司进行审计时运用对创新性办法,解决了在面对字符串匹配时候遇到的多变数据形式带来的难题,做到可以在不同类型但有相似属性的字符串中提取数字前后有效字符串,再应用于字符串匹配。项目代码只针对自来水公司提供的用户地址无规则,但是数字锚点的代码思想可以运用到很多工作场景。
2023-09-04 16:09:27 411 3
R8数据集中所有单词词向量
2023-09-06
R8数据集和R8-lable
2023-09-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人