深度学习
文章平均质量分 78
小余同学s
一个正在学习自然语言处理、深度学习的研一学生,旨在分享NLP、Deeplearing等学习笔记,小余同学的个人博客。
展开
-
第十届“泰迪杯”数据挖掘挑战赛:疫情背景下的周边游需求图谱分析-国二方案分享(2)
随着互联网和自媒体的繁荣,文本形式的在线旅游(Online Travel Agency,OTA)和游客的用户生成内容(User Generated Content,UGC)数据成为了解旅游市场现状的重要信息来源。OTA和UGC数据的内容较为分散和碎片化,要使用它们对某一特定旅游目的地进行研究时,迫切需要一种能够从文本中抽取相关的旅游要素,并挖掘要素之间的相关性和隐含的高层概念的可视化分析工具。为此本赛题提出本地旅游图谱这一概念,它在通用知识图谱的基础上加入了更多针对旅游行业的需求。转载 2023-04-12 21:14:10 · 249 阅读 · 0 评论 -
第十届“泰迪杯”数据挖掘挑战赛:疫情背景下的周边游需求图谱分析-国二方案分享(1)
随着互联网和自媒体的繁荣,文本形式的在线旅游(Online Travel Agency,OTA)和游客的用户生成内容(User Generated Content,UGC)数据成为了解旅游市场现状的重要信息来源。OTA和UGC数据的内容较为分散和碎片化,要使用它们对某一特定旅游目的地进行研究时,迫切需要一种能够从文本中抽取相关的旅游要素,并挖掘要素之间的相关性和隐含的高层概念的可视化分析工具。为此本赛题提出本地旅游图谱这一概念,它在通用知识图谱的基础上加入了更多针对旅游行业的需求。转载 2023-04-12 21:11:38 · 240 阅读 · 0 评论 -
【有手就会系列】四步通过文字生成二次元小姐姐图片
四步通过文字生成二次元小姐姐图片。原创 2022-10-29 13:55:19 · 637 阅读 · 0 评论 -
机器学习要警惕的4个常见陷阱!
在一场科技会议上,演讲者询问观众,“有谁为自己的业务开发过机器学习或者人工智能模型?”80%到90%的人都举起了手。“那么,你们当中有谁将它投入生产了呢?”演讲者继续发问。几乎所有的人都放下了手。显而易见,几乎每个人都想在他们的业务中引入机器学习,但是这些人也遇到了一个大问题:让模型可持续发展十分困难,尤其是在云架构的基础上。medium上一位博主也指出了这个问题,并提出了将机器学习模型投入生产的4个常见陷阱。大家对这句话早已耳熟能详,却并没有什么改进,我们可以看到过太多因为拒绝使用已有的解决方案而失败原创 2022-07-05 15:21:15 · 421 阅读 · 0 评论 -
NLP深度学习训练时刷SOTA有哪些trick?
R-Drop:两次前向+KL loss约束Post Training: 在领域语料上用mlm进一步预训练EFL: 少样本下,把分类问题转为匹配问题,把输入构造为NSP任务形式.混合精度fp16: 加快训练速度,提高训练精度多卡ddp训练的时候,用到梯度累积时,可以使用no_sync减少不必要的梯度同步,加快速度对于验证集或者测试集特别大的情况,可以尝试多卡inference,需要用的就是dist.all_gather,对于非张量的话也可以用all_gather_objectPET: 少样本下,把转载 2022-07-01 10:52:10 · 274 阅读 · 0 评论 -
PyTorch显存机制是什么样的?今天来彻底分析一下。
我从研一开始学习NLP自然语言处理,经常使用PyTorch框架。一开始用的时候对于PyTorch的显存机制也是一知半解,连蒙带猜的,经常来知乎上来找答案。经过两年的研究,现在回过头来看,能从大家的答案中找出不足的地方。但是两年过去了,也没有一篇很好的文章来总结PyTorch的显存机制的方方面面,那么我就吸收大家的看法,为PyTorch的显存机制做个小的总结吧。实验环境:OS: Window 11python: 3.7.4PyTorch: 1.9.1GPU: RTX 3060开门见山的说,PyTorch在进行转载 2022-06-28 18:52:37 · 1069 阅读 · 0 评论 -
毋庸置疑,这是最全的异常检测方法总结!
本文收集整理了公开网络上一些常见的异常检测方法(附资料来源和代码)。不足之处,还望批评指正。基于正态分布,3sigma准则认为超过3sigma的数据为异常点。2. Z-scoreZ-score为标准分数,测量数据点和平均值的距离,若A与平均值相差2个标准差,Z-score为2。当把Z-score=3作为阈值去剔除异常点时,便相当于3sigma。3. boxplot箱线图时基于四分位距(IQR)找异常点的。4. Grubbs假设检验资料来源:Grubbs’Test为一种假设检验的方法,常被用来检验转载 2022-06-27 20:12:57 · 132 阅读 · 0 评论