自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Bert模型对文本聚类任务的应用与提升

BERT预训练模型和KMeans结合可以有效提高文本数据的聚类分析能力,提供更具实际意义和语义相关性的聚类结果。

2023-12-06 16:37:38 1215 1

原创 2023研究生数学建模大赛(华为杯)

赛题提供了160例(100例训练数据集+60例独立测试数据集)出血性脑卒中患者的个人史、疾病史、发病及治疗相关信息、多次重复的影像学检查(CT平扫)结果及患者预后评估,该部分信息可在“

2023-10-24 22:17:00 864 1

原创 FastText模型与弱监督学习在分类任务的应用

本次主要研究的是在弱监督学习的前提下使用FastText文本分类模型对少量的标注数据进行训练然后再使用训练好的模型去对大量无标签的文本数据进行预测工作。然后建立评价指标来观察FastText模型在弱监督文本分类的表现。

2023-09-13 11:35:01 258 1

原创 TF-IDF算法在词云图生成时的提升

在我们使用词频高低作为选取词云图关键字的手段时,我们通常会遇到一些词频高的词语对于整个文本来说并不是很重要的情况。所以我们所做的工作就是在选取词云图关键字时改变其以词频为评判的标准,选用TF-IDF算法输出的高权重词语从而达到提升词云图的效果。

2023-09-11 09:10:14 562

原创 Word2Vec模型与XGBoost分类器结合使用——NLP

利用Word2Vec工具将文本数据转化成词向量形式,然后我们将所得到的词向量输入到XGBoost模型中依据决策树进行文本分类任务。我们通过这种手段可以获得较为准确的文本分类结果,同时也可以为实验提供关于词向量和文本分类的验证数据,等等。本文以R8数据集为例。

2023-09-06 10:10:02 590 2

原创 python字符串匹配+数字锚点re升阶版

此次项目是在对自来水公司进行审计时运用对创新性办法,解决了在面对字符串匹配时候遇到的多变数据形式带来的难题,做到可以在不同类型但有相似属性的字符串中提取数字前后有效字符串,再应用于字符串匹配。项目代码只针对自来水公司提供的用户地址无规则,但是数字锚点的代码思想可以运用到很多工作场景。

2023-09-04 16:09:27 411 3

R8数据集中所有单词词向量

R8数据集是一个常用的文本分类数据集,包含了8个不同主题的新闻文本样本。而R8数据集的词向量可以保证我们将R8数据集的词向量固定下来,从而古典舞我们的词向量的变化,以免导致我们最终的分类结果变化

2023-09-06

R8数据集和R8-lable

包含R8数据集和R8数据集表情。R8数据集是一个常用的文本分类数据集,用于评估和比较文本分类算法的性能。它由Reuters新闻机构提供,主要包含来自8个不同主题的纯英文新闻文本。

2023-09-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除