2024年03月_go2coding

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 AI新工具小模型也有大智慧Qwen1.5-MoE；大模型动态排行榜；马斯克更新Grok-1.5

有了这个工具，只需要画草图，就能帮助你生成一个彩色的图像，而且非常符合你的逻辑哦~ 这个在线工具采用了ControlNet机器学习模型来生成图像，通过大量的图像和文本数据的训练就能生成的高质量的图像！X AI 发布，Grok-1.5 是一个最新推出的人工智能模型，由xAI公司开发，能够理解长篇幅的文本和进行高级推理。AI21推出了首个生产级别的基于Mamba的模型Jamba，这是一个创新的SSM-Transformer混合架构模型。地址：https://x.ai/blog/grok-1.5。

2024-03-29 16:50:53 1097

原创联发科成功在天玑 9300 芯片部署大模型；小米SU7车载“小爱大模型”语音交互技术

联发科宣布，在天玑 9300 等旗舰芯片上首次实现大模型（通义千问）的深度适配，能够在离线状态下运行多轮 AI 对话。此外，阿里云将与联发科合作，向全球手机制造商提供端侧大模型解决方案。通义千问已经开源多个带参数的大型语言模型，其中包括视觉和音频理解的多模态大模型，阿里云还推出了参数达到千亿级的通义千问 2.0 版本。联发科也有自研的大语言模型，包括专门优化的 MR Breeze-7B 模型。

2024-03-29 09:09:09 1001

原创 AI新工具又一个开源大模型DBRX击败GPT3.5；根据音频和图像输入生成会说话、唱歌的动态视频

Dify是一个用于开发LLM(大型语言模型)应用的平台，它不仅支持超过100,000种应用的构建，还整合了后端服务(BaaS)和LLM运维(LLMOps)，为生成式AI应用提供必要的技术栈。地址：https://www.databricks.com/blog/announcing-dbrx-new-standard-efficient-open-source-customizable-llms。随着AI技术的不断进步，HeyGen及类似的AI视频生成工具有望重新定义视频制作和内容创作的方式。

2024-03-28 14:47:36 2708

原创 OpenAI文本转视频模型Sora运行成本高昂；抖音打击利用AI生成虚拟人物违规行为

市场调查机构Factorial Funds最新报告显示，OpenAI旗下文本转视频模型Sora在峰值期需要达到72万片英伟达H100 AI加速卡，相当于成本约216亿美元。每片H100的功耗为700W，总计504000000W。为训练Sora模型，每月需要使用4200到10500片H100加速卡，单片加速卡生成1分钟视频需12分钟渲染时间。此消息揭示了在AI技术尤其是视频生成领域，背后的巨大资源消耗。

2024-03-28 09:12:38 1033

原创 AI新工具(20240327) 自动生成带有精确躯干和手部动作的主播风格视频；新型AI搜索thinkany.ai；小米发布图像生成技术SDXS

Make-Your-Anchor是一种革新性的系统，它允许用户仅使用一个人为期一分钟的视频片段进行训练，进而自动生成带有精确躯干和手部动作的主播风格视频。它的工作方式很简单，只需要通过一个命令即可开始，然后根据提示输入文本、回答一些关于主题和受众的问题，选择生成的大纲中你喜欢的部分，等待文档编写完成。扩散模型因其出色的性能成为图像生成领域的前沿，但同时也存在一些缺点，如结构复杂、计算需求大，在生成图片时需要通过迭代采样过程，这会导致明显的延迟。thinkany.ai提供的，支持详细配置的搜索API服务。

2024-03-27 16:08:14 888

原创 Claude 3 Opus 第一次登顶榜首；艺术家试用Sora展现创意

LMSYS 的大模型排行榜最新结果：Claude 3 Opus已经登顶，甚至是作为 Anthropic 推出的对标 OpenAI GPT-3.5 的 Claude-3 Haiku也超过了 GPT-4-0613，它的处理速度、功能强大及处理的上下文长度，在目前市场上均处于领先地位。

2024-03-27 09:20:35 843

原创 AI新工具 Sora的第一印象害羞的男孩（空中梦想家）-一场视频革命正悄悄展开； RAP版的《以父之名》Suno要逆天了

Air Head》的导演沃尔特评论说：“尽管 Sora 在创造看似真实的东西方面非常出色，但让我们兴奋的是它能够制作出完全超现实的东西。抽象表现主义的新时代。Deepgram Aura是Deepgram推出的一种先进的文本到语音（Text-to-Speech，TTS）API，专门设计用于支持实时、对话式的人工智能（AI）代理和应用程序。地址：https://deepgram.com/learn/aura-text-to-speech-tts-api-voice-ai-agents-launch。

2024-03-26 15:26:02 790

原创苹果将在WWDC 2024发布iOS 18，重点讨论AI

据IT之家报道，知名分析师Mark Gurman表示，苹果计划在2024年的开发者大会（WWDC）上发布iOS 18系统，并将重点介绍其对AI技术的看法和整合方式。古尔曼透露，苹果对AI的态度较为保守，正研究如何处理人工智能功能的隐私问题，这可能使苹果决定不提供生成式AI服务，包括聊天机器人等功能。此前，苹果已与谷歌等公司就AI技术进行了商讨，但其内部计划可能与这些合作伙伴不同。

2024-03-26 09:24:04 1701

原创 AI新工具视频迁移升级中国水墨画风格2.0；新颖的视频编辑框架提示编辑,风格转移，身份操控都不在话下；提取多种风格人脸草图

与其前身不同，StyleTTS 2通过将风格模型化为一个随机的潜变量，并通过扩散模型来生成最适合给定文本的风格，而不需要参考语音，从而实现了高效的潜在扩散并受益于扩散模型提供的丰富语音合成。它可以无缝地结合最先进的图像编辑方法来执行多种类型的编辑任务，包括基于提示（prompt-based）的编辑、基于参考（reference-based）的风格转移、以主题（subject-driven）驱动的编辑和身份操控（identity manipulation）。地址：https://domoai.app/

2024-03-25 15:08:05 1540

原创 Stability AI CEO埃马德・莫斯塔克宣布辞职；苹果有意与百度合作开发人工智能模型

Stability AI创始人及CEO埃马德・莫斯塔克近日宣布将卸任CEO职务并辞去董事会职位。该消息引起了AI圈内广泛关注，尤其是在OpenAI发生内部变动之后。Stability AI已由首席运营官黄珊珊和首席技术官克里斯蒂安-拉福特暂时接替CEO职务，同时公司表示莫斯塔克未来将专注于发展去中心化人工智能。该公司得到了包括光速创投和Coatue Management等投资者的支持，莫斯塔克也在其X账户上发表谈话，强调去中心化AI的重要性。

2024-03-25 09:21:13 742

原创 AI新工具(20240322) 免费试用Gemini Pro 1.5；先进的AI软件工程师Devika；人形机器人Apptronik给你打果汁

Gemini 1.5 Pro在长上下文检索任务上表现出几乎完美的召回，在长文档QA、长视频QA和长上下文ASR方面进一步提升了SOTA水平，并在各种基准测试上达到或超过Gemini 1.0 Ultra的最佳性能。例如，在制造业、物流仓储、护理和家务等领域，Apptronik的机器人技术都有着巨大的应用潜力。AssisChat是一个使用Swift和SwiftUI构建的AI助手聊天应用，支持iOS/iPadOS/macOS平台，允许用户使用自己的OpenAI/Claude API密钥。

2024-03-22 13:44:50 2338

原创 OpenAI GPT商店面临质量与合规问题；黄仁勋预测：十年内AI将实时生成游戏画面

OpenAI旗下的GPT商店因存在大量涉嫌侵权内容、助长学术不诚实行为及违规内容等问题而引起关注。其中包括未经授权使用迪士尼、漫威角色生成内容的GPT模型，以及声称能绕过剽窃检测的改写工具等。尽管OpenAI采取了自动与人工相结合的审核机制，但众多问题模型仍逃过审查。此外，商店还有模拟名人对话的GPT和尝试“越狱”模型的行为。这些问题暴露了OpenAI在政策执行和质量控制方面的挑战，对其平台的未来发展产生了重要影响。

2024-03-22 09:10:33 1057

原创 AI新工具(20240321) 又一个开源的Sora实现；高质量动漫风格图像的文本到图像模型；字节跳动文本到视频的快速生成模型

该模型是通过交叉模型扩散蒸馏技术生成的。这是一个开源的、以动漫主题为基础的文本转图像模型，用于生成更高质量的动漫风格图片。该模型包括更广泛的来自知名动漫系列的角色，经过优化的数据集，以及为更好地创建图像而新增的新的美学标签。Animagine XL 3.1建立在Stable Diffusion XL的基础上，旨在为动漫粉丝、艺术家和内容创作者提供准确和详细的动漫角色表现，是一个有价值的资源。它通过多个视觉智能体的协作，实现了在多种视频生成任务中的高质量输出，旨在复制并扩展 OpenAI Sora 的能力。

2024-03-21 16:25:19 1125

原创微软一夜之间“吞并”估值40亿美元AI初创公司Inflection； OpenAI将发布GPT-5模型，或于今年夏季

成立两年、估值达到40亿美元的AI初创公司Inflection，经历了一次重大变化，其两位创始人Mustafa Suleyman和Karén Simonyan离职加盟微软，并成立新的消费者AI部门——Microsoft AI，其中Suleyman担任负责人直接向CEO纳德拉汇报，Simonyan则成为首席科学家。此次变动不仅标志着Inflection的重要员工及其技术能力被微软吸纳，也反映了微软在AI领域加速扩张的战略意图。同时，该变动引发了科技界和公众的广泛讨论，对AI领域的未来走向产生了深远影响。

2024-03-21 09:14:43 561

原创 AI新工具(20240320) AI创作一首属于自己的音乐；轻松制作具有透明背景的高质量图像

通过Leonardo的Transparency体验无缝设计集成的魔法，发现它如何能够提升您的项目！Transparent PNG Images功能使您能够轻松制作具有透明背景的高质量图像，适用于图形设计、按需打印模板、贴纸等各种元素，让您能够毫不费力地打造清晰的视觉效果。在通俗的语言中，Suno允许用户仅通过提供歌词，自动为其创作旋律和演唱，产生完整的音乐作品。从雨声和远方的雷声到各种动物声音，从脚步声到节日烟花的盛放，Pika让一切想象成为可能，帮助创作者们将视频制作提升到一个全新的水平。

2024-03-20 17:46:34 1776

原创 OpenAI CEO透露GPT-4表现“有点糟糕”；通义听悟音视频问答登场；Adobe整合AI功能助力3D设计创作

OpenAI的首席执行官Sam Altman在与Lex Fridman的访谈中表示，GPT-4的表现并不令人满意，认为其“有点糟糕”，同时对即将到来的GPT-5寄予厚望。Altman指出，尽管GPT-4在某些方面存在亮点，但其在处理复杂多步骤问题上几乎无用，最佳应用于头脑风暴。此外，他还提到今年将会推出新模型，不是GPT-5，但具体细节尚未透露。尽其所言，GPT-4的不足并未阻碍OpenAI达到每周1亿用户和800亿美元的高估值。

2024-03-20 09:02:35 1354

原创 AI新工具终于来了！华丽的风格转移！；基于视频/网络摄像头的 AI 运动捕捉应用，可用于虚拟直播和元宇宙时代；从单个物体图像生成新颖多视角的模型

该模型利用视频扩散模型生成对象的多视图视频，相比使用图像扩散模型的Stable Zero123，具有更好的泛化能力和视图一致性，并提出了改进的3D优化方法。此外，Stable Video 3D引入了新的视角生成技术，能够从任意角度生成连贯的视图，增强了姿态可控性和对象外观的一致性，进一步改进了真实和准确的3D生成关键方面。用户可以创建沉浸式和生动的midjourney提示，以激发他们的视觉灵感，帮助他们将他们的ai艺术创作推向新的高度。🔥 Magnific.ai新功能上线，一键替换的你的图片风格。

2024-03-19 14:56:23 782

原创英伟达发布Blackwell GB200 AI加速卡

英伟达在GTC开发者大会上发布了最强AI加速卡GB200，它基于新一代AI图形处理器架构Blackwell，预计今年晚些时候发货。GB200性能大幅超越前代Hopper架构的H100加速卡，AI性能达到20 petaflops，是H100的5倍。该加速卡采用台积电4纳米工艺，拥有双芯片设计，通过NVLink 5.0高速连接。GB200还集成了基于Arm的Grace CPU，能显著提升大语言模型的推理性能，将成本和能耗降至原来的25分之一。

2024-03-19 09:00:09 823

原创 Open-Sora的视频生成模型的整个套件开源了；比较各种大型语言模型（LLM）的定价信息； OpenDevin是一个开源项目，旨在复制Devin

Grok-1是一个拥有3140亿参数的Mixture-of-Experts模型，其中25%的权重在给定标记上是活跃的。通过访问模型权重、全面的训练源代码和详细的架构见解，潜入尖端 AI 的世界。Open-Sora是一个开源项目，为Sora可能使用的开发流程提供高性能实现，包括数据处理、训练和部署的完整Sora复现架构解决方案。LLM定价是一个网站，汇总和比较官方人工智能提供商和云服务供应商提供的各种大型语言模型（LLMs）的定价信息。马斯克开源的Grok-1模型，目前为止最大的开源大语言模型。

2024-03-18 16:01:51 872

原创马斯克大模型Grok-1已开源，目前为止最大的开源大语言模型

马斯克上一周就在x上预告将开源自己的大模型，等了一周，就在刚刚，马斯克的大模型 Grok-1 开源了，Grok-1采用的是先进混合专家模型，参数达到了3140亿，也是目前参数量最大的开源大语言模型。官方地址：https://x.ai/blog/grok-osHuggingFace地址：https://huggingface.co/xai-org/grok-1。

2024-03-18 09:13:03 939

原创 AI新工具(20240315) 用户通过点击图像的特定部分实现域区图像动画；先进的机器人操作框架

与以往方法不同的是，我们的方法不需要为每个人进行训练，也不依赖于人脸检测和裁剪，生成完整的图像（而不仅仅是脸部或嘴唇），考虑到了正确合成沟通的人的广泛情景（例如，可见的躯干或不同的主体身份）。这种功能允许用户通过点击图像的特定部分并输入简短的指令（例如“微笑”、“拍打翅膀”或“运行”等），即可让图像中对应的部分产生动画，如让人物的脸上露出微笑，或是让鸟儿拍打翅膀。这意味着用户可以通过输入文本提示来控制图像的特定区域生成特定的内容，从而实现更加细致和个性化的图像创作过程。先进的机器人操作框架。

2024-03-15 13:38:35 1350

原创首个ChatGPT机器人- Figure 01；李开复旗下零一万物推出Yi系列AI大模型API

Figure 01是一个由初创公司Figure联合OpenAI开发的人形机器人。它展示了与人类和环境互动的能力，可以说话、看东西，并且可以执行各种任务，如递食物、捡垃圾、收拾碗筷等。Figure 01还具备推理能力，可以自主识别、计划和执行各种有用的任务。在其操作过程中，OpenAI提供视觉推理和语言理解的支持，Figure 01的神经网络则提供快速、低等级、灵巧的机器人动作。值得一提的是，Figure 01是完全自主行动的，没有远程控制，展示了其在与真实物理世界互动时的高度自主性。

2024-03-15 09:21:05 1363

原创 AI新工具(20240313) 用户输入提示词创建任何GIF；将任意人脸图片转换为另一幅图像的模型

用户输入提示词创建任何GIFgifshift是一种工具，可以帮助用户创建任何GIF的新版本。使用gifshift的步骤如下：上传一个GIF文件或者使用库中的一个GIF。提供您想要的场景描述，最好选择一些具有代表性的角色，并进行详细描述。进行GIF的转换，等待一分钟即可完成。地址：https://gifshift.xyz/先进的直接文本到视频合成系统，以高清晰度和多样的比例生成视频，不带水印。

2024-03-14 20:39:41 759

原创 Ollama管理本地开源大模型，用Open WebUI访问Ollama接口

现在开源大模型一个接一个的，而且各个都说自己的性能非常厉害，但是对于我们这些使用者，用起来就比较尴尬了。因为一个模型一个调用的方式，先得下载模型，下完模型，写加载代码，麻烦得很。对于程序的规范来说，只要东西一多，我们就需要一个集中管理的平台，如管理python的pip，管理js库的npm等等，而这种平台是大家争着抢着想实现的，这就有了Ollama。

2024-03-14 11:05:23 13003 7

原创免费 Copilot 用户可以访问 OpenAI 的 GPT-4 Turbo；面向 3D 虚拟环境的多面手 AI 代理

微软宣布免费版Copilot已升级到GPT-4 Turbo模型，所有用户都可以免费使用。此外，Copilot Pro新增了GPT Builder工具，订阅者可创建自定义聊天机器人并分享给其他人使用。

2024-03-14 09:03:59 1335 1

原创 AI新工具(20240313) 世界上第一个完全自主的AI软件工程师Devin 已经开始接外包了；又一个开源本地知识库问答系统

Devin是世界上第一个完全自主的AI软件工程师，具备长期推理和规划的能力，能够执行复杂的工程任务，包括学习、修复错误、与用户实时合作等。Devin可以学习并使用陌生技术，构建和部署应用程序，自主查找和修复代码中的错误，训练并优化自己的AI模型，解决开源代码库中的问题和功能请求等。这个工具结合了自动可解释性技术和稀疏自动编码器，使得研究人员在编写代码之前就可以迅速地探索模型内部的工作原理，并且可以在模型的前向传播过程中进行干预，观察这些干预如何影响特定的行为表现。成为AI专家的技术和路径图谱。

2024-03-13 16:42:15 1546

原创谷歌成功高效破解OpenAI大模型关键信息；自动编程五个阶段

谷歌最新研究成功破解了OpenAI的大模型Ada和Babbage的整个投影矩阵和隐藏维度大小，仅通过不到2000次的API查询，成本极低，甚至低至20美金。这种方法也同样适用于GPT-4。通过攻击模型的最后一层—嵌入投影层，谷歌得以揭示模型的隐藏维度和权重矩阵，有效降低了模型的“黑盒”程度。值得注意的是，这项研究在开始前已获OpenAI同意，并确保数据安全。此研究由来自谷歌DeepMind等多个知名机构的研究员共同完成，提出了针对此攻击的防御措施。

2024-03-13 09:15:00 1073

原创 AI新工具(20240312) Midjourney官方发布角色一致性功能；免费且开源的简历制作工具；精确克隆语调、控制声音风格

Rnote是一款开源的基于矢量的绘画应用，专为绘图、手写笔记以及注释文档和图片而设计。通过提供PDF和图片的导入导出功能、无限画布以及适应大屏幕和小屏幕的自适应用户界面等特性，Rnote旨在提升用户的创作和学习效率。接下来，我将使用通俗的语言，来详细介绍OpenVoice的主要功能，以及它可能被应用的场景。现在，我将用通俗的语言向您详细介绍它的功能，并在什么样的情况下会使用这种技术。此外，这项技术的精确度是有限的，它无法复制极其细微的特征。默认的强度是100 (，其中URL是你选择的角色图像的链接。

2024-03-12 10:30:12 1503

原创马斯克宣布本周开源AI助手Grok；Gemini 1.5：多模态理解

马斯克通过X平台宣布，其人工智能公司xAI计划本周开源人工智能助手Grok。此前，马斯克因OpenAI及其CEO阿尔特曼违反了公司成立协议—推动AI技术为人类福祉而非利润而起诉他们，并要求OpenAI恢复开源精神。他批评OpenAI成为微软的事实上的闭源子公司，专注于利润最大化。马斯克曾提议，如果OpenAI改名为“ClosedAI”，他将撤回诉讼，进一步批评OpenAI的虚伪性。此消息强调开源精神与商业化之间的张力。

2024-03-12 09:14:17 1268

原创 AI新工具(20240311) 国内免费使用Claude 3 Sonnet；Pika推出视频加音效功能

Invoke是一个可以生成创意资产的平台，让您能够将您的创意愿景转化为专业质量的图像，并邀请合作者在安全空间中共同合作，同时保持对生成作品和AI模型的所有权、安全性和控制权。通过Invoke Studio，您可以在单个画布上创建和完善图像，结合强大智能的图像生成技术和熟悉实用的界面，实现高水平的创意控制。Pika Sound Effects是一项革新的功能，它利用先进的AI技术，让视频制作者能够给自己的作品添加生动、逼真的音效。这种操作的便捷性和生成效果的惊人度，为视频创作带来了全新的体验。

2024-03-11 16:11:10 1620

原创山姆・阿尔特曼重返OpenAI董事会；Car-GPT：LLMs能否最终实现自动驾驶？

经历长达数月的审查后，山姆・阿尔特曼已重返OpenAI董事会，并作为返回条件之一，OpenAI还新增了三名外部女性董事会成员。这标志着公司正努力摆脱去年11月的领导层危机。新成员包括索尼公司前执行副总裁妮可・塞利格曼，比尔及梅林达・盖茨基金会前首席执行官苏・德斯蒙德・赫尔曼，及Instacart首席执行官菲吉・西莫。OpenAI主席布雷特・泰勒对山姆和格雷格・布洛克曼的支持表示兴奋。

2024-03-11 09:54:42 1093

原创 AI新工具百分50%算力确达到了GPT-4水平；将音乐轨道中的人声、鼓声、贝斯等音源分离出来等

与它的前任PixArt-α相比，PixArt-Σ在图像的保真度和文本提示的准确对应方面取得了显著的提升。它利用PixArt-α的基础预训练，通过引入更高质量的数据，从一个较弱的基线模型演变成更强的模型，这一过程被称为“弱到强训练”。ComfyUI-Flowty-TripoSR是一款将单张图片快速转换成3D模型的工具，它基于开源模型TripoSR构建。Qwen-Agent是一个基于Qwen的大型语言模型（LLM）能力，包括指令执行、工具使用、计划和记忆能力来开发LLM应用的框架。Pi 刚刚得到了巨大的升级！

2024-03-08 14:55:32 1060

原创微软免费AI基础中文课程；马斯克提出撤诉OpenAI条件：“改名ClosedAI”

埃隆・马斯克针对OpenAI及其CEO萨姆・阿尔特曼提起诉讼，主因双方在人工智能开发的合作协议上出现分歧。马斯克称，OpenAI的转型为营利组织与双方最初的合作理念不符，曾提议合并至特斯拉或由他全权控制，但遭拒绝。马斯克以“改名ClosedAI”为条件提出撤销诉讼，并批评OpenAI背离初衷。OpenAI回应马斯克的提案和指责，并解释了与马斯克分道扬镳的原因。OpenAI创始人团队也强调，不支持赋予任何人绝对控制权的协议。马斯克离开后，表示将寻找或创建对抗谷歌/DeepMind的竞争对手。

2024-03-08 09:22:12 1113

原创 AI新工具 MacOS 翻译提供翻译、润色和语法修改功能的插件；AI生成 Excel公式；Deepmind前华人员工创建视频生成工具

简单来说，如果你需要在Excel中完成一些复杂的计算或操作，而你又不完全确定如何编写正确的公式，SmartExcel.cc可以帮助你通过简单描述你的需求来生成所需的Excel公式。这款插件专门为macOS平台上的Bob软件设计，通过使用先进的ChatGPT模型，能够大幅提升文本处理的品质，实现不仅仅是普通的翻译，还包括语言的润色和语法的校正。Yi-9B是Yi系列模型中的一个版本，是由01.AI训练的大型开源语言模型之一。这个框架结合了GPT-4和图像生成模型的能力，能够生成详细的剧本和相应的视觉内容。

2024-03-07 17:30:11 953

原创腾讯QQ推出AI聊天搭子；零一万物01AI宣布开源Yi-9B模型

腾讯QQ合作筑梦岛和混元助手，推出了AI对话功能“AI聊天搭子”，提供多种虚拟角色与用户实时互动，目前已开启测试。此外，抖音也上线了由字节Flow部门打造的AI社交App“话炉”。QQ的AI聊天搭子为普通用户和超级会员提供每日100条和400条消息额度。该功能旨在增强用户体验，通过AI技术为用户提供休闲娱乐的新方式。

2024-03-07 09:04:53 1216

原创 AI新工具(20240306) mlx-swift-chat Mac运行本地模型；Comflowyspace开源AI图像和视频生成工具

人工评估和自动指标表明，在这项任务中，GPT-4V是明显的优胜者。在视觉外观和内容方面，评注员认为GPT-4V生成的网页在49%的情况下可以取代原始参考网页，并且令人惊讶的是，在64%的情况下，GPT-4V生成的网页甚至被认为比原始参考网页更好。更广泛的实验表明，ResAdapter与其他模块（例如ControlNet、IP-Adapter和LCM-LoRA）兼容，能够生成具有灵活分辨率的图像，并且可以集成到其他多分辨率模型（例如ElasticDiffusion）中，以有效地生成更高分辨率的图像。

2024-03-06 16:26:34 1779

原创 ChatGPT推出新“朗读”功能支持多语言与声音；使用大型语言模型增强分类数据集

OpenAI最新为其流行的聊天机器人ChatGPT引入了一项名为“朗读”的功能，这使得ChatGPT能用五种不同的声音朗读回复，并支持37种语言的自动检测与朗读。这一功能旨在简化用户交互过程，现已在ChatGPT的网页端和移动应用程序中上线。此更新不仅展示了OpenAI在推进人工智能模型多模态交互方面的持续努力，同时也跟随了行业内其他竞争者的步伐。ChatGPT此前已经推出了语音聊天功能，而“朗读”功能则进一步增强了用户体验，允许用户选择性地将文本回复声音化，甚至设定为默认回复方式。

2024-03-06 09:17:51 1374

原创 AI新工具(20240305) Claude 3；Anthropic提供的提示库；Dashtoon等

投资人对Dashtoon的未来发展充满期待，认为网络漫画将成为下一波增长浪潮，而Dashtoon的创始人拥有内容、技术和全球用户获取方面的丰富经验和技能，将引领这一行业的发展。Wix的AI网站构建器通过对话界面快速创建一流的网站。您可以通过几个简单的步骤创建网站，然后根据您的答案，AI网站构建器将创建您网站的详细描述，您还可以与AI进行互动并调整描述，直到满意为止。Wix还提供多种内置的AI工具，如AI文本生成器，AI图像生成器，图像自动增强，自动背景去除器等，以帮助您进一步自定义和改进网站的许多元素。

2024-03-05 13:22:08 1168

原创突发，Anthropic推出突破性Claude 3系列模型，性能超越GPT-4

人工智能创业公司Anthropic宣布推出其Claude 3系列大型语言模型，该系列包括Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus三个子模型，旨在满足各种AI应用需求。Claude 3系列在认知任务性能上树立了新标杆，其旗舰模型Opus在多个方面超越了OpenAI GPT-4和谷歌Gemini 1.0 Ultra。这些模型优化了实时交互功能，提升了处理速度和智能水平，还具有良好的视觉能力。

2024-03-05 09:08:41 1147

原创超全Chat GPT论文修改指令

我是一名研三在读硕土，我的专业是传播学，我的研究方向是媒介理论，我来自中国人民大学，你将扮演我的研究生导师角色。我是一名研究生，我的专业是 XX ，我的研究方向是 XX ，你将扮演我导师的角色，我目前正在写一篇学术论文，需要你的指导。我是一名研究生，我的专业是 xX ，我的研究方向是 XX ，你将扮演我的导师角色。

2024-03-04 17:55:47 3621 1

Android中使用FCM进行消息推送

Android中使用FCM进行消息推送完整的过程，包括在控制板中配置项目，安卓应用构建，在服务端中发送fcm消息。

2023-03-24

驱动开发的相关工具DebugView

包含DebugView，DriverMonitor，IRPTrace，WinObj，DeviceTree，DiskView，DriverManager，EzDriverInstaller

2022-06-13

PngButton.zip

MFC中把png资源加载到自定义按钮，可以了解到mfc中如何控制按钮的编写。

2019-08-08

WebRTC零基础开发者教程(中文).pdf

本文中提供下载的《WebRTC 零基础开发者教程》将以一个初学者的角度，从0开始逐步引导你掌握WebRTC开发的方方面面（当然，教程中更多的是操作性的内容，具体到技术原理和实现，显然不是本教程的讨论范畴）。

2019-06-14

webrtc.zip

WebRTC is a free, open project that provides browsers and mobile applications with Real-Time Communications (RTC) capabilities via simple APIs. The WebRTC components have been optimized to best serve this purpose. Our mission: To enable rich, high-quality RTC applications to be developed for the browser, mobile platforms, and IoT devices, and allow them all to communicate via a common set of protocols. The WebRTC initiative is a project supported by Google, Mozilla and Opera, amongst others. This page is maintained by the Google Chrome team.

2019-06-12

Getting-Started-with-Webrtc-2013-Rob-Manson.pdf

WebRTC（Web Real-Time Communication）项目的最终目的主要是让Web开发者能够基于浏览器（Chrome\FireFox\...）轻易快捷开发出丰富的实时多媒体应用，而无需下载安装任何插件，Web开发者也无需关注多媒体的数字信号处理过程，只需编写简单的Javascript程序即可实现，W3C等组织正在制定Javascript 标准API，目前是WebRTC 1.0版本，Draft状态；另外WebRTC还希望能够建立一个多互联网浏览器间健壮的实时通信的平台，形成开发者与浏览器厂商良好的生态环境。同时，Google也希望和致力于让WebRTC的技术成为HTML5标准之一，可见Google布局之深远。

2019-06-11

Android开发艺术探索

《Android开发艺术探索》是一本Android进阶类书籍，采用理论、源码和实践相结合的方式来阐述高水准的Android应用开发要点。《Android开发艺术探索》从三个方面来组织内容。第一，介绍Android开发者不容易掌握的一些知识点；第二，结合Android源代码和应用层开发过程，融会贯通，介绍一些比较深入的知识点；第三，介绍一些核心技术和Android的性能优化思想。

2019-02-27

21个项目玩转深度学习：基于TensorFlow的实践详解

我们正处在一个日新月异、飞速变革的时代，层出不穷的新技术每天都在冲击和改变我们的生活。人工智能无疑是其中最受关注、也是影响最深远的技术领域。它为计算机插上了翅膀，演变出许多从前根本无法想象的新技术、新应用。AlphaGo Zero——一台没有任何先验知识的人工智能机器，可以在几天内通过自我博弈成长为世界第一的围棋大师，超越人类几千年积累的经验；风格迁移应用能够自动将用户的照片转变为著名的绘画艺术风格；机器可以在零点几秒内完成翻译，把一种语言译成另一种语言。此外，有关人脸识别、自动驾驶等新技术的应用也都纷纷开始落地。在过去的几年内，人工智能技术不仅在学术上取得了巨大的突破，也开始走向寻常百姓家，真正为人们的生活提供便利。

2018-12-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人