自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 datawhale AI夏令营 nlp语言处理

首先要先下载所需要的库,通过下列语句下载,:是一个用于自然语言处理任务的库,它可以做数据预处理、词汇构建、序列化和批处理等jieba是一个中文分词库,用于将中文文本切分成有意义的词语:用于评估机器翻译质量的工具,主要通过计算BLEU得分来衡量生成文本与参考译文之间的相似度。但是其实可能会报错,如果使用下面的语句好像也可以顺利执行。其次是spacy库,:是一个强大的自然语言处理库,支持70+语言的分词与训练,但是在下载上有点不同。

2024-07-20 22:41:12 348

原创 Datawhale Al夏令营 机器学习

其实整个代码是python语言的,对于没有学过python可能还是有难度的(like me),但是task2部分也懂了很多,包括问题也解答的很好,分数也好了很多,还是很有帮助的。GBDTCART回归树。

2024-07-17 23:17:34 726

原创 Datawhale AI 夏令营 nlp语言

三者的区别就在于统计机器翻译从数据驱动建模机器翻译任务,神经网络机器翻译利用映射关系学习,而规则机器翻译则是利用语法规则和词典进行翻译。nlp自然语言处理的分数和机器学习的分数好坏的比较好像是不一样的,nlp是越高越好,机器学习是越低越好,可能是运用的模型不一样的原因。看了一下里面的文件大概是5个,应该是训练集、开发集、测试集、和术语词典,其中开发集是分开的中英文两份。最开始给的测试结果很低,只有0.3197,第二次给出的改进的代码分数有所提高,有0.7811。测试集是反映模型的泛化能力。

2024-07-14 22:55:31 258

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除