AIGC
文章平均质量分 83
人工智能生成内容,大模型,大语言模型、大视频模型、通用人工智能
AI高工
技术分享:AI、大模型、游戏开发、软件工程、网络云计算 (wx号:aigg365)
展开
-
AI时代的新沟通能力:结构化提示词
AI 大模型工具,尤其是大型语言模型(LLMs),通常不自带提示词功能,但它们可以被设计成理解和响应精心构造的提示词。提示词的设计是一个创造性的过程,旨在最大化模型的性能和输出的相关性。它们包括了具体的研究问题、方法论、论文结构、风格和语调以及预期的长度,以确保生成的文本满足特定的学术或专业标准。在这个例子中,提示词清晰地指出了任务(生成摘要)、提供了必要的上下文(文章内容)、指定了格式(简短)、设定了长度限制(不超过200字),并且指明了风格(学术)。原创 2024-04-27 10:00:00 · 468 阅读 · 0 评论 -
我们真的需要Chinese-LLaMA3本地大模型吗
在适当的开发工具中(类似各种agnent,比如coze,longchain),我们只需要搭建一个简单的workflow,里面包含三个过程节点:先把中文翻译成英文,再传给LLaMA3,最后把结果从英文翻译回中文。基于同样的道理,将来如果出现了更强大的大模型,我们只需要替换workflow中的节点,而无需在应用后台做大规模的调整和开发。不过,原版的LLaMA3主要是用英文世界的语料喂大的,虽然它对中文也能点头哈腰,但因为中文语料不够丰盛,所以用中文和它聊天时,它的表现就像是个刚学中文的老外,还有点懵。原创 2024-04-26 10:28:03 · 264 阅读 · 0 评论 -
访问Claude3的10种方法
Opus(Plus 会员)、Sonnet(免费)、Haiku(免费) - 代理访问 - Haiku免费。- Opus(Plus 会员)、Sonnet(免费) - 代理访问 - Sonnet(免费)、唯一官网。- Opus(次数限制)、Haiku免费 - 直接访问 - Haiku(免费)- Opus、Sonnet、Haiku - 按流量收费 - 直接访问。- Opus、Sonnet、Haiku - 免费体验 - 代理访问。-Opus、Sonnet、Haiku - 免费 - 直接访问。原创 2024-04-02 23:21:13 · 449 阅读 · 0 评论 -
盘点AI编程效率神器合集,代码助手工具大模型、Agent智能体
程序员是最擅长革自己命的职业,让我们借助AI的力量一起摸鱼一起卷!原创 2024-04-02 22:23:04 · 1074 阅读 · 0 评论 -
使用自然语言控制电脑完成各种任务Open Interpreter/01
让 AI 在你的电脑上执行代码的开源项目,它支持 OpenAI 和托管在 Hugging Face 上的模型,通过与你的电脑 ChatGPT 式问答,来实现写代码、运行代码(均由 AI 实现)这个目的。也就是说,你只需要给电脑提出问题,它就帮你解决问题。这是一款便携式语音助理,通过开放源代码技术,让你能用语音控制家用电脑,执行邮件发送、应用操作,甚至学习新技能。它可以实时查看屏幕,如同个人助理般高效便捷。,不仅连接云端,也能在本地运行,开放性与灵活性并存。再比如,对它说:帮我写一个简单的番茄钟工具,它…原创 2024-03-30 22:23:57 · 324 阅读 · 0 评论 -
AI程序员Devin的开源替代Devika
前天介绍了 AI软件工程师今天介绍下另一款Devin替代品,开源的Devika。原创 2024-03-30 17:27:41 · 564 阅读 · 0 评论 -
微软AI 程序员AutoDev,自主执行工程任务生成代码
全球首个 AI 程序员 Devin 的横空出世,可能成为软件和 AI 发展史上一个重要的节点。它掌握了全栈的技能,不仅可以写代码 debug,训模型,还可以去美国最大求职网站 Upwork 上抢单。Devin 诞生之后,让码农纷纷恐慌。最近,微软同时也整出了一个 AI 程序员 ——AutoDev,能够自主生成、执行代码等任务。与 Devin 这种极致追求效率和产出结果的方向有所不同。AutoDev 专为自主规划、执行复杂的软件工程任务而设计,还能维护 Docker 环境中的隐私和安全。原创 2024-03-28 19:40:50 · 781 阅读 · 0 评论 -
Github万星项目lobe-chat,连接GPT4&GPTs,平替chatgpt-plus
在 LobeChat 代理市场中,创作者可以发现一个充满活力和创新的社区,该社区汇集了众多精心设计的代理, 它不仅在工作场景中发挥着重要作用,而且在学习过程中也提供了极大的便利。我们的市场不仅仅是一个展示平台,也是一个协作空间。在这里,每个人都可以贡献自己的智慧,分享自己开发的代理。通过/提交代理,您可以轻松地将您的代理创作提交到我们的平台。重要的是,LobeChat 建立了复杂的自动化国际化 (i18n) 工作流程, 能够将您的代理无缝翻译成多种语言版本。原创 2024-03-28 18:45:43 · 1848 阅读 · 0 评论 -
AI编程时代:注释的力量
现在,即使不清楚最佳数据结构或算法,AI会提出建议,分析利弊,帮我选择最适合的方案。现在,优秀的注释成为高效利用AI的关键,比传统聚焦于代码质量的方式更有效。历史上,计算器的出现曾减少对算术运算的依赖,但提升了运算效率和准确性,同样,AI辅助编程虽改变了技能需求,但软件工程师的价值并未降低。虽然文章的观点可能会因新AI技术而变得过时,但只要我们持续思考和保持热情,利用更智能、更好用的工具,我们的竞争力将不断提升。新工具,如AI,需摒弃旧思维,否则易陷盲区,无法最佳利用。现借助AI,这种优势不再显著。原创 2024-03-28 13:45:04 · 348 阅读 · 0 评论 -
AI神器之微软的编码助手Copilot
但GitHub Copilot却并没有这样的功能,某些我本地特有的代码模板,即使我敲了再多遍,下次再换一个文件输入时,GitHub Copilot依然不知道我想要的是什么,因为它的云端训练不到我本地特有的这些代码。但不得不说,虽然GitHub Copilot和ChatGPT背后对接的都是Codex,但GitHub Copilot还是有它的优势的,因为它会拥有更加充分的代码上下文环境,这是ChatGPT所不具备的。这些代码不一定能保证是完全正确的,但是根据我的观察,通常都是比较有参考价值的。原创 2024-03-18 23:21:56 · 950 阅读 · 0 评论 -
搭建一个自己的AI学术语音助手(二)
这部分实现生活利用了langchain的mapreduce的方法来实现摘要抽取。实现思路就是把大文件切成小文件,抽取没部分的摘要,然后汇总摘要在重复上面的几个流程,直到抽取的摘要符合要求(迭代轮次、字数要求)。这个效果还可以,但是后续如果要优化摘要效果其实还有很多工作可以做。比如:1.如何在map阶段把每段摘要抽取的既能兼顾本段信息、又能考虑整体信息完整2.对reduce信息汇总要怎么要才能保持文本思路结构,而不是只是把高频出现信息给出。原创 2024-03-15 22:55:23 · 736 阅读 · 0 评论 -
搭建一个自己的AI学术语音助手(一)
这几天的思考突然有了灵感,其实缺的就是自己的知识内容如何变成语音助手的管理对象,也就是说现在语音助手只是一个内容门户,并且还只服务于已经有的出名的内容APP商。对于用户自己的私域的数据和信息它是不管的,并且这些语音助手其实和内容是很松的耦合关系,这就会带来些问题对内容的理解不够深入,明明图书馆里有很多知识可是就是找产出不了好的科研论文。然而对于全局性问题前面的两个假设是不成立的。目标当然是星辰大海要把所有自己私域的知识:娱乐的、学习的、工作的、家庭的、历史事件全部给管理起来,语音作为知识沟通的手段;原创 2024-03-15 22:53:28 · 700 阅读 · 0 评论 -
使用数字人SadTalker创建免费AI主播
虽然这个项目目前的主要研究方向还是基于cuda的脸部训练,生成动态的视频,但如果能够接入语音服务,利用ChatGPT实时生成对话prompt,配合这个项目实时渲染动态视频,那么一个灵动的对话机器人就产生了。它利用封装在预训练脸部GAN中的丰富多样的先验信息进行人脸盲修复。点击 GFPGANv1.4 即可下载,将下载好的模型放到项目中E:\ProgramData\openAI\SadTalker\gfpgan\weights\下,源码是不包含\gfpgan\weights\这个目录的,可以手动创建下。原创 2024-03-15 14:35:10 · 820 阅读 · 0 评论 -
Sora的核心技术预测
虽然Sora目前存在许多局限性,且谷歌、Meta、Runway、百度、字节跳动等国内外公司都尚未推出可与其相争的对手,但借着这一风口,拨开迷障,无论是不让 Sora等一众大模型取代自己,还是借AI之势,找到属于我们的路才是首要之事。此前的大模型文生视频工作基本都是单镜头单生成,而这次Sora生成的视频中创建了多镜头场景、模拟模拟复杂的镜头应用,且准确地保持角色的完美一致性,确保视觉表现的高水准,堪称大模型研发的极大突破。但即便是再有创世意义的成果,在没有大量被使用之前,都有着明确不可忽视的局限性。原创 2024-03-07 18:22:08 · 1008 阅读 · 0 评论 -
AI Agents之CrewAI智能体开发框架
AI Agents 的开发是当前软件创新领域的热点。随着大语言模型 (LLM) 的不断进步,预计 AI 智能体与现有软件系统的融合将出现爆发式增长。借助 AI 智能体,我们可以通过一些简单的语音或手势命令,就能完成以往需要手动操作应用程序才能实现的任务。但目前, AI 智能体的开发还处于初期阶段,正如 1990 年代的互联网,我们还在基础设施、工具和框架开发的初步阶段探索前行。本文将介绍一个名为 CrewAI 的新型智能体开发框架。本文主要包含以下内容认识 AI 智能体。原创 2024-03-07 17:05:07 · 1151 阅读 · 0 评论 -
从“AI证件照”到“AI译制片”,爆款AIGC应用的商业化迷思
目前,已经有AI公司针对精品化视频译制的需求,推出了ToB的产品解决方案,训练跨语种 Voice Conversion模型,采集配音演员的口型,由人工控制,再经由VC模型生成配音结果,比TTS模型的表现力更强,细节保留更多。十月份,由HeyGen制作的各种明星跨语言翻译视频,在全网疯传,大家震撼于AIGC地道的中英文表达,完全没有译制片的腔调,惟妙惟肖的音色还原、高度对齐的口型声音,让不少人表示,“真的有被吓到”“配音演员要失业了”……模型训练,强行业知识等,都要长期积累和迭代,达到专业译者的水平。原创 2024-01-16 17:38:49 · 1038 阅读 · 0 评论 -
AIGC相关的tips
入门AI绘画的几个关键词:秋叶大佬、Nenly同学、WebUI、ComfyUI、liblib.aiPIKa做二次元的可以,写实的暂时不行, 如果三次元写实电影还是用runway,现在PIKA经常不同次元的素材互穿,roll废的概率有点大。用图生视频的话,runway的可控性还是抢gen2 一直很强,尤其是写实系的光影runway 对亚洲脸不友好pika底层的理解有四块儿1.海量高质量多风格片源投喂2.语义理解,文字和图像的联系3.图像和三维之间的转换 4.镜头语言那些东西。原创 2023-12-29 18:15:14 · 472 阅读 · 0 评论 -
2023年人工智能行业总结
不仅各种插件层出不穷,光是各种Checkpoint和Lora模型都撑起了一个千万市值的C站,赛博朋克风格,二次元萌妹、机甲风、国风、甚至建筑图、Logo制作、头像制作等等等等,不管你喜欢什么画风,只需一个Lora,就能源源不断的生成图片。Midjourney依旧是简单易用、高画质的代名词,今年从V4升级到了V5,现在马上要出V6,生成的图片也更加稳定自然,对于光影的把控简直令人发指。年初的so-vits项目成为了关注的焦点,它能够通过几个小时的音频,完美模拟出人的声音特点,实现了让机器模仿音色的目标。原创 2023-12-29 18:16:39 · 1539 阅读 · 0 评论 -
字节跳动开源基于SD1.5的 MagicAnimate 一张照片秒变真人舞蹈视频
项目地址:https://github.com/magic-research/magic-animate显卡要求:12GMagicAnimate是一项利用先进的扩散模型实现人体图像动画的创新性项目。其核心优势在于确保生成内容的时间一致性,通过提供预训练的稳定扩散V1.5和MSE微调的VAE基础模型,使用户能够轻松入门。使用MagicAnimate只需要一张照片和一组动作。用户可以选择一张喜欢的小姐姐的照片,然后通过输入一组动作,让AI根据这些信息生成一个舞蹈视频。原创 2023-12-06 09:53:51 · 821 阅读 · 1 评论 -
游戏中的AI和数据科学
。。。。DataEngineer + SoftEngineer收集数据、报表、数据分析、产品化AI PVE研发AI测试Auto Feature起源世界 AiBotAI生成游戏内容具体示例:1. 算法:打关卡bot, 人工测,现在自动测。 推荐,AB测的提升。2. AB测试:买量的模型的优化,经济学因果推断。不同用户群的不同效果。留存的提升。3. 数据分析师 游戏机制分析:BP 优化建议,帮助策划优化增长点。奖励的力度、定价、排名榜单机制联动。设计复杂、原创 2022-05-15 13:04:23 · 844 阅读 · 0 评论 -
AI AIgents时代- Autogen
另外,UserProxy 还有一个 human_input_mode 参数,设置为 NEVER,表示整个过程都不需要人参与,也可以设置为其他值,它会等待人的输入后再进行下一步操作,这个设计可以让人参与到任务执行过程,避免跑偏。这个任务如果是给ChatGPT的话,它会直接返回一串可执行代码,但是代码通常会存在问题,例如执行报错、缺少依赖等,你需要反复跟 ChatGPT 对话来完善程序。作为增强型推理 API。它允许性能调优,API统一和缓存等实用程序,以及高级使用模式,如错误处理,多配置推理,上下文编程等。原创 2023-11-23 19:26:40 · 222 阅读 · 0 评论 -
Unity机器学习 ML-Agents第一个例子
上一节我们安装了机器学习mlagents的开发环境,本节我们创建第一个例子,了解什么是机器学习。我们的例子很简单,就是让机器人自主移动到目标位置,不能移动到地板范围外。首先我们来简单的了解以下机器学习的过程。机器学习的过程MLAgents机器强化学习的过程(reinforcement learning)observation - 监视,观察decision - 决策action - 行动reward - 奖罚。原创 2023-11-23 18:30:21 · 723 阅读 · 0 评论 -
人工智能 系统学习简介
首先, 人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等;人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能;因此人工智能最重要的两个因素是数据和算法。其次,人工智能从实际应用上大致可分为两个主要的方向即...原创 2020-04-21 08:55:53 · 2893 阅读 · 1 评论 -
AI已到,普通人的机会在哪里?
工作忙事情多的时候叫机器帮你分担点文字类工作写点文章也行,(亲测,旁边一个同事,在某天临下班的时候,让Chat GPT帮忙写过一篇微信公众号文章因为是新闻宣传类的,没啥大的问题,随便改改也就交差下班了)3. 将ChatGPT技术应用于市场营销、销售等方面,利用ChatGPT技术对用户提出的问题做出有用的反馈,增加网站流量,提高网站或企业的美誉度,从而提高销售收入。如果你的认知能超越99%的人,那不管任何时候,全都是你的机会,当然,或许到那个时候,你已经不想再去赚这个钱了。原创 2023-03-09 10:03:51 · 683 阅读 · 0 评论 -
解读《陆奇最新演讲实录—我的大模型世界观》
腾讯科技频道记者张小珺一篇《陆奇最新演讲实录—我的大模型世界观》刷爆朋友圈。文章知识点丰富、字里行间处处流淌着创业方法论和AI应用商机,含金量极高!PS:一家之言、不求苟同。如有不爽之处,欢迎来 找我。腾讯新闻原文:“就连陆奇都说他跟不上大模型时代的狂飙速度了。他让下属做“大模型日报”,一方面便于他跟上论文和信息更新,另一方面给奇绩生态创业者共享。他用了三个“实在”表达这一点。“我实在不行了,论文实在是跟不上,代码实在是跟不上。Just too much(太多了)。”原创 2023-11-28 15:41:16 · 296 阅读 · 0 评论 -
大模型fine-tune 微调
然而还存在一个问题,仍然以目标识别任务为例,假设有一个已经训练好的模型A,其任务是识别(猫,狗,人,鸡,鸭,鹅)这6+1(背景)个类别的目标,当我们的需求发生变化,需要再增加一类目标“猪”时,如果采用重新训练一个新模型B的方式无疑会增加成本,而且造成了资源浪费——A和B的模型需求相似度高,我们为什么不可以利用到已经成熟的模型A呢?解决以上问题的方案就是fine-tune,微调!2. 对于较为复杂的任务,比如说对于目标识别任务,目标类别多起来的话,如果想提升模型的表现能力,需要大量的数据集。原创 2023-11-27 22:23:46 · 645 阅读 · 0 评论 -
AIGC文生图及工具产品简介
AIGC,全称是人工智能生成内容(Artificial Intelligence Generated Content)是继UGC(用户生成内容),PGC(平台生成内容)后,利用人工智能技术,自动生成内容的生产方式;目前主要利用&集成自然语言处理、计算机视觉、语音生成等算法训练生成式大模型,且已经从纯文本生成、纯图像生成拓展到了跨模态的内容理解与生成,促进了更接近普通人定义的“智慧”的加速涌现。原创 2023-11-27 16:38:31 · 804 阅读 · 0 评论 -
通往AGI的大模型MultiAgent的RL是对的但HF有上限
8. RLHF(基于人类反馈(Human Feedback)对语言模型进行强化学习(Reinforcement Learning))不一定是AGI 的必经路径,因为RLHF是hf部分决定了上限,怎么会通往 AGI?4. 学术界大模型研究与工业界差距大,一个问题是 gpu 算力集群不够,学术界不能做pretrain,很难下决心 all in 某个研究方向,另一个问题是学术界研究不能在生产中验证。3. 同行Meta 没有做到位,Llama 还是差的挺多的,远远没有做好, meta 没有train 好。原创 2023-11-28 10:14:12 · 368 阅读 · 0 评论 -
Agent举例与应用
现有的 Agents 项目如 AutoGPT,BabyAGI 和 MetaGPT 的成功验证了LLM的潜力。LLM 不仅仅是一个文本生成工具,它可以成为一个强大的通用问题解决器。它展现了巨大的潜力,在解决现实世界难题方面具备强大的能力。OpenAI 应用研究主管 Lilian Weng 在一篇长文中提出了 Agent = LLM(大型语言模型)+记忆+规划技能+工具使用这一概念,并详细解释了Agent的每个模块的功能。她对Agent未来的应用前景充满信心,但也表明到挑战无处不在。原创 2023-11-29 14:54:15 · 732 阅读 · 0 评论 -
tensorflow 0:入门与资源
建立一个系列的笔记记录自己的tensorflow学习之路,并与他人分享。tensorflow是谷歌开源的深度学习框架,作为工程开发人员,再tensorflow上既可以动手实现自己设计的深度学习框架,也非常易于重现论文中的成果。作为从其它软件开发方向转入到深度学习方向的人来说,tensorflow封装了很多常用模块和功能,使得我们易于学习和掌握。这里摘抄一段来自http://www.tensorfly.cn/的话介绍tensorflow:TensorFlow™ 是一个采用数据流图(data flow原创 2020-06-24 09:29:55 · 241 阅读 · 0 评论 -
transformer中QKV的通俗理解(剩女与备胎的故事)
用vit的时候读了一下transformer的思想,前几天面试结束之后发现对QKV又有点忘记了, 写一篇文章来记录一下参考链接: 哔哩哔哩:在线激情讲解transformer&Attention注意力机制(上)在线激情讲解transformer&Attention注意力机制(上)_哔哩哔哩_bilibiliAttention is all you need介绍更具体的介绍可以去阅读论文在Attention is all you need这篇文章中提出了著名的Transformer模型Transforme原创 2022-12-08 10:20:44 · 9369 阅读 · 6 评论 -
WebUI工作流插件超越ComfyUI
虽然WebUI默认自带图片信息读取功能,不过只能读取提示词、CFG等最基本的信息,想要完美复刻原图有不小的难度,尤其是使用了ControlNet的图片,几乎无法复刻,而LightDiffusionFlow插件连ControlNet的参考图都能带过来。如今,一个叫做LightDiffusionFlow插件的推出,可以完美复刻(甚至超越)ComfyUI的工作流功能,可以将当前AI绘画作品的参数导出工作流文件,其他用户导入即可复现,如果缺乏原作者的大模型、LoRA等,该插件还能自动下载。原创 2023-11-30 17:40:59 · 795 阅读 · 0 评论