【大模型专栏—入门篇】科研论文疑惑汇总

在这里插入图片描述
大模型专栏介绍

😊你好,我是小航,一个正在变秃、变强的文艺倾年。

🔔本文为大模型专栏子篇,大模型专栏将持续更新,主要讲解大模型从入门到实战打怪升级。如有兴趣,欢迎您的阅读。

💡适合人群:本科生、研究生、大模型爱好者,期待与你一同探索、学习、进步,一起卷起来叭!

🔗篇章一:本篇主要讲解Python基础、数据分析三件套、机器学习、深度学习、CUDA等基础知识、学习使用AutoDL炼丹
🔗篇章二:本篇主要讲解基本的科研知识、认识数据和显卡、语言模型如RNN、LSTM、Attention、Transformer、Bert、T5、GPT、BLOOM、LLama、Baichuan、ChatGLM等系列、强化学习教程、大模型基础知识及微调等
🔗篇章三:本篇主要讲解智能对话、大模型基础实战如Ollama、Agent、QLoar、Deepspeed、RAG、Mobile Agent等、大模型领域前沿论文总结及创新点汇总



期刊与会议

💡学术论文、期刊、文献、会议的区别:

  • 学术论文:作者通过研究、实验、调查等方法所得出的独立观点或得出的研究结果,并将其以书面形式进行记录。论文主要通过投稿到期刊或会议来发表。
  • 期刊:由学术团体、学会或出版社定期出版的学术性刊物。它收录了大量的学术论文,旨在促进学术研究和知识交流,并对投稿的论文进行匿名同行评审。期刊是由学术团体、学会或出版社定期出版。
  • 文献:一切记录了知识和信息的载体都可以称为文献,包括图书、报纸、期刊、光盘、相像磁带等。
  • 会议:一般是由研究所或者协会举办的,用于学术交流的目的在会议之后,会出一本会议过程中的论文集proceedings,其中收录的就叫会议论文有的期刊的出版社或者协会也会为某个期刊开会议,这些会议论文也叫该期刊的增刊

💡论文(paper)分类:

  • Letter:快报形式,一般发表最新的研究成果,文章要求短小(4页),有即时性,理论推导要求不高
  • Journal/Transactions:期刊杂志,但两者面向的读者和表达方式上略有不同
    • Transactions:具体到一个相对较细的专业方向上
    • Journa:面向的读者群却更加广泛,所以jour需要对背景知识有更加全面的介绍
  • Magazine:属于杂志类,一般要求用文字和图表来表述些最新研究成果,不允许有过多的公式推导
  • Proceedings:记录, 会议录; 年[学]报; (科学文献)汇编,会议的文章发表为论文集,通常是这个类型

💡概念区分:

  • DOI(Digital Object Identifier):数字对象标识,文献的身份证号码,具有唯一性、永久性等特点
    • 组成:前缀和后缀,中间用“/”分割,所有DOI均以“10.”开头,例如:10.1158/1541-7786.MCR-08-022710.1016/j.ccr.2008.05.005。前缀中的10.为DOI特定代码,前缀后4位数字表示出版机构代码,由DOI注册代理机构分配;后缀由出版机构提供,规则不限,只要在相同的前缀中具有唯一性即可
    • 判断DOI是否正确:🔍https://dx.doi.org
    • 查找DOI:🔍https://search.crossref.org
  • IF(Impact Factor):期刊影响因子,国际上通行的期刊评价指标,是E.加菲尔德于1972年提出的。由于它是一个相对统计量,所以可公平地评价和处理各类期刊。通常,期刊的影响因子越大,它的学术影响力和作用也越大。
    • IF=(某刊前2年发表论文在该年的被引用次数)/(该刊前2年发表论文总数
    • 三年平均影响因子:IF=(当年IF+去年IF+前年IF)/3,中科院分区表采用3年平均IF作为划分分区依据,以减少影响因子上下波动带来的影响
  • H指数(h-index/h-factor):一名科研人员至多有h篇论文分别被引用了至少h次
  • 刊号:
    • CN:中国境内注册、国内公开发行的刊物,刊号均标注有CN字母
    • ISSN:我国境地外注册,国内、外公开发行的刊物。ISSN由8位数字组成,分两个部分:序号和检验码。
  • 收录号/检索号(AcessionNumber):某篇论文被数据库收录的唯一标记
  • 查询期刊信息:
  • 🔍下论文
    1. 找不到英⽂论⽂,可以尝试sci-hub https://sci-hub.ru
    2. 某宝买包⽉包年的中英⽂数据库搜索

学术期刊(AcademicJournal)分类:

  • 核心期刊:
    • 国内:主要有7大,审核速度:1-3个⽉
      • 北⼤核⼼(北⼤中⽂核⼼):普及最⼴
      • 南⼤核⼼(中⽂社会科学引⽂索引(CSSCI)来源期刊):最权威
      • 科技核⼼(中国科技论⽂统计源期刊(CSTPCD)):医药机构
      • CSCD(中国科学引⽂数据库):理科的CSCD
      • ⼈⽂社科核⼼(中国⼈⽂社会科学核⼼期刊(CHSSCD))
      • 中国⼈⽂社会科学学报学会“中国⼈⽂
      • 万⽅数据股份有限公司的“中国核⼼期刊遴选数据库”
    • 国际:
      • SCI(科学引⽂索引):属于理⼯科,根据期刊影响因⼦来划分,涉及学科广泛,审稿速度:⼀⼆区为1-3个⽉,三区为2-5个月,四区为2个月-1年
        • 按JCR划分:Q1、Q2、Q3、Q4(平均4等分,各占25%)
        • 按中科院划分:Q1(5%)、Q2(6-20%)、Q3(21-50%)、Q4(51-100%)【一般按这个划分】
        • 在这里插入图片描述
      • SSCI (社会科学引⽂索引):SCI的姊妹篇,属于社会科学
      • A&HCI(艺术⼈⽂引⽂索引):属于艺术类
      • EI(⼯程索引):供查阅工程技术领域文献的综合性情报检索刊物,EI没有自己的影响因子,能检索到的文章分为两种
        • JA检索:就是收录期刊的文章,EI源刊,理论性强
        • CA检索:就是收录会议的文章,EI会议,实践性强
  • 普通期刊:非核心期刊都是普通期刊
    • 国家级期刊:由党中央、国务院及所属各部门,或中国科学院、中国社会科学院、各民主党派和全国性人民团体主办的期刊及国家一级专业学会主办的会刊
    • 省级期刊:由各省、自治区、直辖市的各部门、委办、厅、局、所,省级社会团体和机构以及各高等院校主办,在新闻出版部门有登记备案,国内外公开发行的学术期刊
  • 顶刊:⼀般指SCI⼀区Top,是一个相对的概念,每个学校/机构都可以有不同范围定义

会议:

  • 会议核⼼:
    • 国际:世界各地不定期举办的学术研讨会,针对某个会议主题⾯向世界征⽂,会后以此次会议名称为刊名,以会议论⽂集的形式出版,并递交EI-CA或ISTP数据库检索。
      • CPCI/ISTP会议(科技会议录索引):知名度不⾼
      • EI会议(理⼯科类会议索引)
    • 国内:
  • 顶会:在某个领域内的顶级学术交流会议中宣读发表的的论文

CCF:中国计算机学会,不是出版社(那就不能发行期刊),也不是数据库,也不是某个会议的名字,只是计算机领域的权威⼈⼠排的评级,主要关注计算机领域。

人工智能领域常用:

A类国际学术期刊:
在这里插入图片描述
A类国际学术会议:
在这里插入图片描述
T1类国内期刊:
在这里插入图片描述
复盘所有的关系:

在这里插入图片描述
💡常见会议、期刊:

机器学习领域两大顶会:

  • ICML(International Conference on Machine Learning):国际机器学习大会,由国际机器学习学会(IMLS)主办,一年一次。与 NIPS 并列机器学习两大顶会。
  • NeurIPS/NIPS(Annual Conference on Neural Information Processing Systems):神经信息处理系统年会,交叉学科会议 ,是一个关于机器学习和计算神经科学的国际会议。但偏重于机器学习. 主要包括神经信息处理、统计方法、学习理论以及应用等,大会每年 12 月举行,会后一般会在第 2 年初版会议的论文集。

随着全球 #metoo 运动的不断发展,学术界爆出大量内部性别歧视、性骚扰的案例。NIPS 大会的名字由于带有情色意味,引起了众多社区成员的反对。 NIPS 网站地址从 https://nips.cc/变成了 https://neurips.cc/,NIPS也正式更名为NeurIPS。

深度学习领域顶会:

  • ICLR(International Conference on Learning Representations):国际表示学习会议 主要聚焦于深度学习。
  • IJCAI( International Joint Conference on Artificial Intelligence):国际人工智能联合会议,人工智能领域最顶尖的综合性会议。 历史悠久, 从1969年开始举办。人戏称“爱韭菜”。
  • AAAI(AAAI Conference on Artificial Intelligence):美国人工智能协会年会,人工智能领域的顶级会议, 每年二月份左右召开,地点一般在北美。

自然语言处理领域:

  • 顶级会议:ACL(代表)、NAACL、EMNLP
  • 顶级期刊:CL、TACL
  • 比较好的会议:AAAI、IJCAI、SIGKDD、SIGIR、WWW、EACL

计算机视觉领域:

  • 顶级会议: CVPR(代表)、ICCV、 ECCV、 NeurIPS、ICML、ICLR(CCF里暂时没有的顶会)
  • 比较好的会议:AAAI(A类)、IJCAI(A类)、ACM MM (A类)
  • 有一定认可度的会议:WACV、BMVC(C类)、ACCV(C类)

其他常见顶刊顶会:

在这里插入图片描述
💡如何确定自己的期刊:

  1. ⾕歌学术和知⽹搜索近3年领域所有的论⽂(Review综述)
  2. 通过引⽤信息获取每⼀篇论⽂的投稿期刊和会议,汇总到⼀个表格
  3. 把所有可投的期刊和会议按照对应级别分类(英⽂期刊可以通过letpub搜寻期刊级别,中⽂期刊可以通过知⽹搜寻期刊级别)例如按照SCI分区,即可得到SCI⼀区对应的所有可投期刊、SCI⼆区对应的所有可投期刊、SCI三区对应的所有可投期刊、SCI四区对应的所有可投期刊。

投稿流程

  1. 方向选择,确定领域。
  2. 文献综述,定义问题。
  3. 发掘Idea、创新点。
  4. 设计方法、开展试验。
  5. 反复迭代、攥写论文。
  6. 投稿、写补充材料、和审稿人进行 rebuttal(辩驳)
  7. 中稿、poster/oral、demo、project page…

科研好习惯

  1. 维护论文阅读列表笔记。
  2. 深入理解任务、写博客和笔记。
  3. 详细的数据统计分析,每个实验知道自己为什么做。
  4. 及时和导师、其他研究者交流。
  5. 做好研究反思,诊断阶段性问题。
  6. Think before you do,write before you do.【三思而后行,先理顺要做的关键点,不要上来就直接跑baseline、写代码】

科研常见错误

  1. 一问三不知,不知道哪里好,哪里不好,为什么好,为什么不好。
  2. 文献调研不充分,Idea和别人重复,投稿的时候才发现。
  3. 选择的领域过于陈旧,Don’t beat a dead horse !
  4. 单打独斗,缺乏交流,后期才发现方向很水,没什么意义,或者Idea根据不对。
  5. 对科研过于理想化,分不清项目、科研、系统的区别。
  6. 不爱动手做实验,缺乏分析实验结果,寻找insight的过程。

阅读文献

三步论文阅读法
  1. 解决什么问题?
  2. 创新点和方法是什么?
  3. 结果和结论是什么?

选择方向

好的方向标准
  1. 前沿性
  2. 重要性
  3. 复杂性
  4. 传承性
  5. 可行性
确定方向的三个问题
  1. 这件事情重要吗?
  2. 这件事情我做有什么优势?
  3. 这件事情为什么以前做不了?
确定具体研究问题
  1. 方向的终究目标是什么?
  2. 是什么阻碍了这个目标的实现?
  3. 这个问题我目前有条件做吗?

审稿流程

第一遍
  1. Journal:标准、录取率、严格程度
  2. Title:研究的热点、关键词
  3. Team:研究机构、国家、团队
第二遍
  1. Abstract:研究问题、对象、内容、方法、发现创新、结论
  2. Figures:示意图、原理图、模型图、算法图;创新点、核心工作;分辨率、质量、信息密度;
  3. Conclusion:最核心工作、创新总结、未来工作。新的模型、算法、方法、通用意义上的结论。
第三遍
  1. 框架:Introduction 逻辑清晰(树靶子、分析问题、提出解决方案)、足够聚焦、重要文献的缺失。
  2. 方法:研究方法、选的技术路线合理;充分完备。前人方法的异同。f(A+B+C)+ A
  3. 实验:对比不同方法优缺点、图表曲线、定性到定量,详实度、可复现度。
  4. 细节:参数、实验细节、语法问题、语言、格式问题。
审稿人建议
  1. 创新性:老旧课题用新的思路和方法解决、新问题用传统简单更有效方法。
  2. 实验:设计、数据集、对比
  3. 表面功夫:图表美观、语言流畅度、专业性、规范性、文献标准。

“创新”思路

发现Idea
  1. 阅读论文发掘
  2. 实现中获得Insight
  3. 和别人交流
创新层次
  1. 开拓新的领域,提出新的问题:LLM+Agent, Visual grounding,lmageNet,adversarial robustness
  2. 理论层面进行基础性地创新:Score-Based Generative Modeling through SDE。
  3. 对基础模块,通用架构进行改进:ResNet,Transformer,LSTM,RWKV
  4. 针对特定的问题,提出新方法:See papers with code, task …
  5. 结合以前的方法,做新系统:…system …
  6. 给人看待问题的新角度:What does bert with vision look like? Rethinking … Understanding …
创建模式
  1. A->B:一个在A领域有用的Idea,进行修改,用到B领域。例如:Deformable对CNN有用,验证Deformable对Transformer也有用。
  2. A+B:A和B在某个问题上都work,组合起来效果更好。例如DERT。
  3. A-B:某一个问题的解法A,一定需要B作为它的组件吗?例如:Mamba out?Not all image worth…
  4. 解释一个问题为什么会存在,从而针对这个点提方法。例如:Why normalizing flow fail to detect OOD.
  5. 对前人做实验的方法进行分析总结。例如:Diffusion beats GAN.
  6. 对模型进行基础性地改进。例如:ResNet.(难度大)在这里插入图片描述
  7. 借助成熟的方法体系。例如:Self-supervised point cloud.在这里插入图片描述
  8. 定义一个新问题。例如:Generate spatial audio.在这里插入图片描述
  9. 对一个问题进行系统性分析。例如:Understand deformable attention.在这里插入图片描述
  10. 统一benchmark,从实验中发现一些insight。例如:A closer look at local aggregation.
  11. 从老的领域,挖掘出新东西。例如:RWVK。(难)

审稿要求

  • Novelty、Relevance、Significane
  • Soundness
  • Quality of writing
  • Literature

毕业目标

研究⽣三年下来,最重要的⼀件事:毕业。请务必先查看研究⽣培养计划。如果你刚读研毕业⽬标都没定好,犹如⼀只⽆头苍蝇⼀样乱⻜,会浪费很多的宝贵时间,最主要的是3年后你往回看,会后悔不已。

论文方向

💡选择>努力

  1. 通过知⽹和⾕歌学术,按照⽅向关键词,分别搜出这10个⽅向的近三年的所有论⽂;
  2. 选择1个论⽂数量最多的论⽂,且近两三年内有很多人在做的,适合水论文
  3. 选择冷门方向,第⼀个吃螃蟹的⼈,最好这个方向是老师很擅长的方向或者是有师兄师姐带的方向,然后冲顶刊顶会
  4. 看对应方向的英文综述性文章(讲该领域的发展历史) 2-3篇

小论文

必备三张图:

  • 摘要图:在这里插入图片描述
  • 方法图:只考虑数据流的运转,⽽不要把模型的细节全部绘制出来在这里插入图片描述
  • 总结图:
    • 通过⼀张表格和最近⼏年的模型对比,体现自己模型的优越性在这里插入图片描述
    • 挑几个实例,然后通过⼀幅可视化的图来体现我们的模型的效果很好

大论文

📌 [ 笔者 ]   文艺倾年
📃 [ 更新 ]   2024.9.12
❌ [ 勘误 ]   /* 暂无 */
📜 [ 声明 ]   由于作者水平有限,本文有错误和不准确之处在所难免,
              本人也很想知道这些错误,恳望读者批评指正!

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值