
七月科研论文大模型:含论文的审稿微调、阅读、写作、修订
文章平均质量分 96
七月论文大模型:含论文的审稿(基于微调)、阅读、写作、修订
v_JULY_v
七月在线创始人兼CEO,结构之法算法之道blog之博主
展开
-
一文速览Gemma 2及其微调:从论文审稿GPT第3.5版(微调Gemma),到第5.2版(早期paper-7方面review微调Gemma2)
如此文《》所讲Google作为曾经的AI老大,我司自然紧密关注,所以当Google总算开源了一个gemma 7b,作为有技术追求、技术信仰的我司,那必须得支持一下,比如用我司的paper-review数据集微调试下,彰显一下gemma的价值与威力。原创 2024-06-29 11:58:11 · 5780 阅读 · 0 评论 -
微调LLama 3——七月论文审稿GPT第5版:拿早期paper-7方面review数据集微调LLama 3
用早期paper-4方面review微调llama2本节微调完之后,自然便可以与以下模型PK(针对哪个情况,则用那个情况的paper,所以评估llama3版本的情况3时,则都统一早期paper)原创 2024-06-24 17:17:51 · 4823 阅读 · 0 评论 -
让AI写论文——全流程全自动的AI科学家:基于大模型提炼idea、写代码、做实验且最终写成论文
熟悉本博客或我司七月的知道,过去一年,在机器人解决方案之外,大模型应用开发团队一直专注通过大模型赋能科研行业,所以在做面向科研论文相关的翻译、审稿、对话、修订(包含语法纠错、润色)、idea提炼等诸多系统(),目前正在逐一上线七月官网8.14这一天,一关注我们的朋友黄总,发我一篇文章《首位AI科学家问世!已独立生成10篇学术论文,还顺手搞了AI审稿人》,并说:“看看你们审稿大模型有什么可以借鉴的”我仔细一看,原来是这篇论文。原创 2024-08-15 23:30:32 · 5629 阅读 · 0 评论 -
微调LLama 3.1——七月论文审稿GPT第5.5版:拿早期paper-review数据集微调LLama 3.1
对于llama3,我们之前已经做了针对llama3 早7数据微调后的测评后来,llama3.1出来后,考虑到性能高于llama3,所以项目组同事青睐、文弱上周做了llama3.1通过早7数据微调后的测评随后,青睐、文弱又分别做了最终,早7数据下,超gpt4 超的不容易;但早4数据下,超gpt4 则很轻松..个人心得是,首先,llama3.1确实是比llama3 更强悍,其次,现在微调一下超过GPT4,已经不是啥新闻了,我自己都疲了,🐶..原创 2024-08-09 17:13:13 · 6959 阅读 · 5 评论 -
康奈尔大学之论文审稿模型Reviewer2及我司七月对其的实现(含PeerRead)
自从我司于23年7月开始涉足论文审稿领域之后,在业界的影响力越来越大,所以身边朋友如发现业界有相似的工作,一般都会第一时间发给我,比如本部分要介绍的康奈尔大学的reviewer2当然,我自己也会各种看类似工作的论文,毕竟同行之间的工作一定会互相借鉴的,我们会学他们,他们看到我们的工作后自然也会受到不小的启发,而在大模型时代一个技术人保持竞争力的最佳方式就两点:保持对最新技术/paper的跟踪,每天各种大量实践/折腾/实验。原创 2024-06-23 00:09:51 · 4661 阅读 · 2 评论 -
基于大模型的idea提炼:从ResearchAgent,到斯坦福的AI-Researcher、上海AI实验室的VIRSCI
对本博客比较熟悉的朋友知道,我司论文项目组正在基于大模型做论文的审稿(含CS英文论文审稿、和金融中文论文审稿)、翻译,且除了审稿翻译之外,我们还将继续做润色/修订、idea提炼(包含论文检索),是一个大的系统,包含完整的链路由于论文项目组已壮大到18人,故目前在并行多个事,且我也针对idea提炼做一下技术探索原创 2024-05-06 22:40:25 · 5220 阅读 · 0 评论 -
七月论文审稿GPT第4.2版:通过15K条paper-review数据微调Llama2 70B(含各种坑)
当我们3月下旬微调完mixtral 8x7B之后,下一个想微调的就是llama2 70B因为之前积攒了不少微调代码和微调经验,所以3月底apple便通过5K的paper-review数据集成功微调llama2 70B,但过程中也费了不少劲考虑到最后的成功固然令人欣喜,但真正让一个人或一个团队快速涨经验的还是那些在训练过程中走过的踩过的各种坑以及走过的各种弯路,所以本文第一部分我会把apple在训练中的遇到各种报错信息而一步步debug、或各种搜Google、搜GitHub的过程都整理出来。原创 2024-04-18 15:48:23 · 6726 阅读 · 0 评论 -
提升大模型数据质量的三大要素:找到早期paper且基于GPT摘要出来7方面review(七月论文审稿GPT第4.5/4.6/4.8版)
如本文开头所说,当我们把各种模型都微调一遍之后,发现最终还是得回归到数据上,其中一个便是提高review的质量在我们之前的一系列工作中,我们针对一篇篇论文的多个review做多聚一,且摘要出多个要点,从而,一篇paper 一条review,最后,就可以弄成qa对 去微调开源模型而之前5k 15k条paper-review数据对中的review,就是根据旧prompt 通过GPT3.5 16K摘要出来的,但之前的旧prompt 比较简单,就4个点重要性和新颖性可能被接收的原因可能被拒绝的原因。原创 2024-04-12 11:05:29 · 5178 阅读 · 3 评论 -
七月论文审稿GPT第4版:通过paper-review数据集微调Mixtral-8x7b,对GPT4胜率超过80%
解决方案:训练时使用了--quantization_bit 4 和 --flash_attn True,这里也要使用统一的才行。有些得单独版本对齐,本人使用的是cuda11.8。更多见七月的《大模型商用项目审稿GPT微调实战》推理所需显存为34318MiB。原创 2024-03-28 00:04:20 · 3788 阅读 · 3 评论 -
学术论文GPT的源码解读与二次开发:从ChatPaper到gpt_academic
ChatPaper的自身定位是全流程加速科研:论文总结+专业级翻译+润色+审稿+审稿回复,因为论文更多是PDF的格式,故针对PDF的对话、总结、翻译,便不可避免的涉及到PDF的解析功能:将BeautifulSoup对象转换为JSON格式的字典,类似于某些开源项目的输出主要步骤:提取文章的标题、作者、发布日期、摘要、部分、引用、图形和公式返回一个包含所有这些信息的字典"""将BeautifulSoup对象转换为JSON格式的函数。原创 2024-03-06 18:02:36 · 4496 阅读 · 0 评论 -
大模型长度扩展综述:从直接外推ALiBi、插值PI、NTK-aware插值(对此介绍最详)、YaRN到S2-Attention
下半年以来,我全力推动我司大模型项目团队的组建,我虽兼管整个项目团队,但为了并行多个项目,最终分成了三个项目组,每个项目都有一个项目负责人,分别为霍哥、阿荀、朝阳,有何问题 欢迎随时留言评论,thanks了解几种外推方案做了什么然后再顺着苏剑林文章的思路来看为什么这样做但总觉得不够深刻moe我有了解过GLaM,Mistral那边的没了解过打算了解下,估计也大差不差。原创 2023-12-19 12:26:03 · 11602 阅读 · 10 评论 -
一文速览Mistral 7B及其微调——我司论文审稿GPT第3.2版:微调Mistral 7B instruct 0.2
23年12月9日,Mistral AI 在 X 平台甩出一条磁力链接,打开一看,发现是接近 87 GB 的种子看上去,Mistral 8x7B的架构此前传闻的GPT-4架构非常相似(很像传闻中GPT-4的同款方案),但是「缩小版」:8 个专家总数,而不是 16 名(减少一半)每个专家为 7B 参数,而不是 166B(减少 24 倍)42B 总参数(估计)而不是 1.8T(减少 42 倍)与原始 GPT-4 相同的 32K 上下文。原创 2023-12-23 23:48:13 · 22140 阅读 · 16 评论 -
从LongLoRA到LongQLoRA(含源码剖析):超长上下文大模型的高效微调方法
本文一开始是《七月论文审稿GPT第2版:从Meta Nougat、GPT4审稿到Mistral、LongLora Llama》中4.3节的内容,但一方面考虑到LongLora的实用性,二方面为了把LongLora和LongQLora更好的写清楚,故把这部分的内容抽取出来独立成本文。原创 2024-01-04 00:10:53 · 7691 阅读 · 1 评论 -
七月论文审稿GPT第2.5和第3版:分别微调GPT3.5、Llama2 13B以扩大对GPT4的优势
我司自去年7月份成立大模型项目团队以来,至今已有5个项目组,其中所有项目均为会对外上线发布的商用项目,而论文审稿GPT至今在过去的半年已经迭代两个版本,其中第二版的效果甚至超过了GPT4(详见《),为了持续累积与原始GPT4的优势,我们如今正在迭代第2.5版本:包括对GPT3.5 turbo 16K的微调以及llama2 13B的微调,本文也因此而成。原创 2024-02-04 22:04:59 · 4743 阅读 · 0 评论 -
七月论文审稿GPT第2版:用一万多条paper-review数据微调LLaMA2 7B最终反超GPT4
如此前这篇文章《》中的第三部分所述,对于论文的摘要/总结、对话、翻译、语法检查而言,市面上的学术论文GPT的效果虽暂未有多好,可至少还过得去,而如果涉及到论文的修订/审稿,则市面上已有的学术论文GPT的效果则大打折扣。原因在哪呢?原创 2023-11-02 21:46:03 · 13449 阅读 · 10 评论 -
七月论文审稿GPT第1版:通过3万多篇paper和10多万的review数据微调RWKV
总之,够未来半年忙了。为加快这个事情的进度,本文解读两个关于学术论文的GPT(因为我司每周都有好几个或为申博、或为评职称、或为毕业而报名论文1V1发表辅导的,比如中文期刊、EI会议、ei期刊/SCI等等,所以对这个方向一直都是高度关注,我司也在做类似的LLM产品,敬请期待)之前7月中旬,我曾在微博上说准备做“20个LLM大型项目的源码解读”针对这个事,目前的最新情况是。原创 2023-08-12 16:21:17 · 10896 阅读 · 7 评论