go2coding-CSDN博客

原创微软AI版的语音自动操作助手来了；免费部署私人 Gemini 应用的开源项目TalkWithGemini；开源自动化测试Cover-Agent

Magic-animate通过预训练的StableDiffusion模型和经过MSE微调的VAE模型，实现对人物图像的动态动画生成。开发者可以减少构建时间，更多地投入创新，而生成式AI驱动的新自动化可能性则赋能更多用例，实现更佳的业务成果。地址：https://powerautomate.microsoft.com/en-us/blog/revolutionize-the-way-you-work-with-automation-and-ai/Khoj 是一个创建个人AI助手的应用程序，旨在扩展你的能力。

2024-05-23 16:58:23 464

原创 AI自动提取社交媒体视频的亮点；腾讯AI实验室利用多Agent大模型协作翻译超长文学文本；Sam Altman 给开发者的建议

在金矿热潮的兴奋中，很容易忽略这一点。现在不是拖延你计划要做的事情或等待下一个机会的时候，这是一个特殊的时刻，在接下来的几年里会发生很多事情，也会出现很多伟大的新事物。通过迭代进行对角去噪操作，FIFO-Diffusion能够处理一系列连续帧，并在噪声水平逐步增加的队列中进行处理，最终在队列头部得到完全去噪的帧，同时在尾部引入新的随机噪声帧。从实验结果来看，FIFO-Diffusion在不需要调优的情况下，能够生成具有高时间一致性和视觉质量的视频，相比传统的训练基础方法和其他无训练方法表现更为优越。

2024-05-22 17:24:16 543

原创微软推出的ReCall历史记录AI搜索你会用吗？开源开箱即用RAG-Verba；从零开始实现Llama3

这些PC采用先进的处理器和AI模型，提供卓越的性能和电池寿命，并引入了多种新功能，如Recall（可以快速查找曾经在PC上见过的内容）、Cocreator（几乎实时生成和编辑AI图像）以及Live Captions（实时翻译并生成英语字幕）。Copilot+ PCs还支持多种流行的软件，如Adobe Photoshop和DaVinci Resolve Studio，并配备微软的Pluton安全处理器，增强设备的安全性。地址：https://github.com/sqlchat/sqlchat。

2024-05-21 17:29:48 998

原创微软提出“Copilot+ PCs”构想，强调本地AI处理；OpenAI暂停ChatGPT语音功能因声音相似争议

在微软 Build 开发者前瞻大会上，CEO 萨蒂亚・纳德拉介绍了“Copilot+ PCs”，一种新类 Windows PC，需配备神经处理单元（NPU）以本地处理AI任务。合作伙伴包括高通、AMD、英特尔等，设备需提供至少40 TOPs性能。微软称重构的Windows 11使 Copilot+ PC性能领先最新 MacBook Air 58%，并具备超一天的续航时间。

2024-05-21 09:15:03 347

原创开源AI搜索引擎Farfalle；用AI分析足球场上运动员的关键点；谷歌地图AI上的新更新；为网站添加真人版的语音朗读

现在，您可以将文字和图片结合起来，以一种全新的创新方式发现您正在搜索的内容 - 访问 Google 地图上数百万家本地商家的信息。地址：https://elevenlabs.io/blog/audio-native/如果开始下雨，请向地图询问“未雨绸缪的活动”，并获得附近的喜剧表演或电影院等建议。人工智能将使用谷歌地图的信息，包括业务细节、照片、评级和评论，以提供可靠的结果。发现附近的自动取款机、餐馆、公园和中转站，显示它们的营业时间和评级。查看逼真的视图，并获取有用的信息，如天气预报、人群高峰时间。

2024-05-20 18:08:03 1035

原创 OpenAI CEO回应离职股权争议；Meta发布混合模态模型Chameleon挑战GPT-4o“

OpenAI CEO 阿尔特曼回应离职条款争议，称公司从未收回任何人的股权，即使没有签署离职协议或不同意非贬低协议。他对该尴尬情况表示负责，并表示团队正在修复相关文件。前安全研究人员Jan Leike离职原因涉及公司安全文化问题，可能与保密协议有关。

2024-05-20 09:10:41 572

原创吴恩达新写的提示工程技巧；ChatGPT推出了数据分析的增强功能；共享ChatGPT服务的解决方案

在2024年5月16日，ChatGPT推出了数据分析的增强功能，用户可以直接从Google Drive和Microsoft OneDrive上传文件，与表格和图表进行交互，并为演示和文档自定义和下载图表。ChatGPT 可以通过自动生成和运行 Python 代码来分析用户上传的数据文件，包括合并、清洗数据集，创建图表以及发现洞察，极大地简化了数据分析的流程。地址：https://openai.com/index/improvements-to-data-analysis-in-chatgpt/

2024-05-17 17:14:30 1007

原创 ChatGPT新功能支持连接云盘服务；百度一季度财报显示AI搜索占比11%

在百度2024年Q1财报电话会上，李彦宏宣布，11%的百度搜索结果由AI生成，未来搜索或成AI时代的杀手级应用。文心大模型用户突破2亿，日调用量达2亿。百度推出轻量级语言模型以及三大开发工具。Q1百度实现总营收315亿元，核心营收238亿元，App月活用户6.76亿，同比增长3%。

2024-05-17 09:17:27 337

原创未来的语音AI模型会更像你的同事；开源Chrome扩展用来总结网页内容或进行对话；为任何扩散模型添加多语言生成能力

此外，MuLan还引入了语言适配器，这是一种轻量级模型（参数少于2000万），可以与许多其他模型和工具（例如LoRA、LCM、ControlNet等）无缝结合，不需要进行额外的微调。如果你有一个在特定语言（比如英文）上训练的扩散模型，但你希望它能理解和生成其他语言的输出，那么MuLan就是你需要的工具。Chatter AI语音机器人，你跟他对话，AI会播报重点新闻，你也可以根据自己的爱好，让他播报刚兴趣的新闻。地址：https://github.com/pipecat-ai/pipecat。

2024-05-16 17:35:38 1152

原创谷歌举办Gemini API开发者大赛；ChatGPT iOS版更新支持中文

IT之家 5 月 15 日消息，在 2024 年谷歌 I/O 开发者大会上，谷歌宣布举办 Gemini API 开发者大赛，主要面向个人开发者和团队。比赛大奖是一辆电动版的1981 DeLorean 汽车，影视剧《回到未来》相关角色布朗博士的饰演者克里斯托弗・洛伊德也在宣传视频中亮相。参赛者需使用 Gemini API 创建应用程序，并依据五项指标进行评估，多个奖项类别将获得现金奖。提交截止日期为8月14日，获奖名单将于10月公布。

2024-05-16 08:50:20 399

原创谷歌 I/O 2024大会全面硬钢OpenAI；腾讯宣布旗下的混元文生图大模型；阿里巴巴技术下的AI自动视频剪辑工具

谷歌 I/O 2024 发布了众多新技术，包括 Gemini AI、大语言模型和通用 AI 智能体等，全面颠覆搜索体验。：一个极其强大的语言模型，具备多模态支持和超长上下文（长达200万token）。它可以处理视频、音频和大量文本，让用户能方便地进行各种复杂任务，如总结会议要点、处理电子邮件等。：一个多功能的通用AI智能体，具备视觉识别和语音交互功能，不仅能识别并分析环境，还能执行各种任务，比如帮助用户填写退货单、找城市服务等。

2024-05-15 12:04:36 973

原创谷歌I/O 2024大会全面硬刚OpenAI

谷歌展示了升级版的 Gemini 聊天机器人，其支持实时处理视频和语音输入，并准确回答问题。此次发布时机与 OpenAI 公布 ChatGPT-4o 新模型几乎同步。Gemini 的多模态能力和自然对话让人们看到了未来 AI 交互的潜力。

2024-05-15 09:06:00 677

原创 GPT-4o让世界再次明亮起来；不超过25美元让普通眼镜变智能；PDF自动化翻译工具

OS-Copilot是一个开源的软体库，它能建立可以自动操作操作系统各种元素的通用型代理，比如网页、代码终端、文件、多媒体以及各种第三方应用。这个项目的目标是提供一个既实惠又功能丰富的智能眼镜解决方案，用户可以通过这些智能眼镜记录生活、记住遇见的人、识别物体、翻译文字等等。是一个完全免费的、开源的、高速的聊天机器人前端应用。OpenGlass项目通过提供一个经济实惠且功能丰富的解决方案，扩大了智能眼镜的应用范围，使其不仅限于技术爱好者或有特殊需求的用户，而是更广泛的人群都能享受到智能眼镜带来的便利和乐趣。

2024-05-14 17:34:57 722 1

原创 OpenAI推出旗舰AI模型GPT-4o并免费开放

摘要：GPT-4o，将免费提供给所有用户。GPT-4o 具备语音、文本和图像处理能力，具备即时响应及语音交互功能，并可根据指令调整语气和唱歌。与以往不同，GPT-4o 将免费开放，付费用户享受五倍调用额度。摘要：5 月 13 日，Anthropic 更新服务政策，将从 6 月 6 日起开放未成年人使用 AI 模型服务。该公司禁止将 AI 用于侵犯隐私，并改名“使用政策”，强调用户责任。Anthropic 还指出允许未成年用户通过 API 访问 AI 模型，注意到其潜在教育用途。同时，明文禁止开发辨识情感的系

2024-05-14 09:19:51 799

原创 Poetry Camera照相机将照片转换成诗歌并打印出来；吴恩达新课程深入了解Mistral；科学研究AI小助手data-to-paper

假如你是一名正在寻找科研创新方法的研究者，或者你想快速验证某个假设，又或者你是一名学生，正在学习如何进行科学研究，data-to-paper都可以为你提供巨大的帮助。这就是data-to-paper的魔力。无论是在生日派对上，为朋友之间的美好时光留下独特的纪念，还是在一个人旅行时，捕捉旅途中遇到的各种风景并附上一首诗，Poetry Camera都能增加这些经历的乐趣和深度。无论是作为一个创意的个人项目，还是作为一个独特的礼物，Poetry Camera都能够提供一种全新的视角，让你用诗意的方式来记录世界。

2024-05-13 18:08:58 923

原创 OpenAI 今日（北京时间 5 月 14 日凌晨两点）将发布的大更新，不是 GPT-5，也不是搜索引擎

OpenAI 预计即将推出一款新的 AI 语音助手，该助手不仅可以进行语音和文字交流，还能识别物体和图像，并具备逻辑推理能力，有望成为超级智能的 AI。预计OpenAI 在定价模式上有新动作，预计将迎来数十亿美元的收入，并推出折扣预订方式，以及降低成本的 API 接口，展现出与其他模型开发人员和 AI 服务器经销商的竞争实力。

2024-05-13 09:03:27 1053

原创发布GPT-5的方式可能会与以往不同；开源vocode使用 AI 自动拨打电话；开源gpt智能对话客服工具；AI自动写提示词

用AI通过声音与用户进行实时交流Vocode是一个旨在帮助开发者快速构建基于声音的大型语言模型（LLM）应用程序的开源库。简单来说，如果你想要开发一个能够通过声音与用户进行实时交流的应用，比如电话机器人、语音助手，或者是可以通过语音操作的游戏（比如语音指令下棋），Vocode提供了一套工具和集成服务，使这个过程变得更加简单和快捷。地址：https://github.com/vocodedev/vocode-python基于大型语言模型（如GPT-3.5/GPT-4.0）的智能对话客服工具。

2024-05-11 18:14:52 1015

原创 OpenAI不会发布GPT-5 及AI搜索引擎；苹果iOS 18将为备忘录应用带来AI升级

OpenAI宣布将在5月13日进行网络直播，讲述ChatGPT升级内容。Sam Altman在X平台明确表示，下周一不会发布GPT-5和AI搜索引擎，但他强调公司正在开发一些他认为人们会喜欢的新产品。此前有传闻OpenAI正秘密开发网络搜索服务，并得到微软Bing的支持，计划于下周一正式发布。但从Altman的说法看，OpenAI似乎还未准备好推出其搜索产品。

2024-05-11 09:12:19 618

原创使用LlamaIndex构建能对文档进行推理；大模型自动执行基于浏览器的工作流；ElevenLabs宣布进军音乐创作领域

DiffMOT是2024年引入的一个前沿的多目标追踪（Multiple Object Tracking，简称MOT）方法，其全称是“A Real-time Diffusion-based Multiple Object Tracker with Non-linear Prediction”，即“基于扩散的实时多目标追踪器，带有非线性预测功能”。这种方法的特点是利用了扩散模型进行目标的追踪，尤其是在复杂的动态场景中，通过非线性预测来提高追踪的精确度和鲁棒性。这包括动态路由，能够从不同的工具中进行动态选择；

2024-05-10 17:39:33 1061

原创清华团队开发首个AI医院小镇模拟系统；阿里云发布通义千问 2.5：超越GPT-4能力；Mistral AI估值飙升至60亿美元

来自清华的研究团队最近开发出了一种创新的模拟系统，名为"Agent Hospital"，该系统能够完全模拟医患看病的全流程，其中包括分诊、挂号、咨询、检查、诊断和治疗等各个环节。这个虚拟世界的所有角色，包括医生、护士和患者，均由LLM（语言模型）驱动的智能体充当，在模拟环境中，这些AI医生能够通过与患者智能体的交互，自主进化，并在几天内完成对大约1万名患者的治疗，展现出比人类医生更高效的处理能力。这一研究不仅展示了多智能体系统在医疗领域的潜力，也为未来智能化医疗提供了新的视角。

2024-05-10 09:06:32 748

原创为何预测预测蛋白质结构这么重要AlphaFold 3；阿里巴巴的开源语音转文字；抱抱脸开源LeRobot

IC-Light是一个专门针对图像照明操作的项目，名字中的"IC"代表"Imposing Consistent Light"（即"强制一致的光线"），其目的在于通过高级技术操作，确保图像在不同光照条件下也能保持一致和自然的视觉效果。IC-Light是一个非常强大的工具，尤其适合那些需要精细控制图像照明效果的专业人士或爱好者，无论是想要为单张图片制造特定的光照氛围，还是想要将图像自然合成到不同背景中，IC-Light都能提供有效的解决方案。能实现文本条件和背景条件下的图像重照明。

2024-05-09 17:27:22 724

原创生成式AI人才需求激增，薪资水平高昂；OpenAI正在开发全新搜索引擎，AI助力搜索革新

近期，随着人工智能的广泛应用和发展，生成式人工智能（AIGC）在招聘市场上异常火爆。据央视财经报道，今年一季度，AIGC相关岗位的需求同比增长超过三倍，人才供不应求。一家大型AI软件公司表示，由于人手不足，其移动端程序升级计划受阻。从全职位范围看，需求同比增长超过320%，求职者投递数量也高达同比增长9倍以上。生成式人工智能岗位的平均年薪在40万元以上，专业人才薪资更是高达50万元以上，显示了该领域的热度及人才的稀缺性。

2024-05-09 09:05:06 1055

原创粘土制作的梵高世界；实时自由地转换您的声音Supertone；几秒钟内设计出令人惊叹的LOGO

它的特色在于，不需要用户进行复杂的提示工程，即可生成令人印象深刻的标志，并且还配备了内置视觉编辑器，用户可以通过它调整输出，指导AI生成完美的标志。地址：https://aws.amazon.com/cn/blogs/aws/build-rag-and-agent-based-generative-ai-applications-with-new-amazon-titan-text-premier-model-available-in-amazon-bedrock/IBM推出的一系列编码生成模型。

2024-05-08 17:45:15 1073 1

原创 OpenAI泄密者加入马斯克xAI，技术版图扩张；OpenAI推出可识别DALL·E 3图像的AI检测工具

最近，曾在OpenAI任职并被指控泄露机密的Pavel Izmailov迅速加入了马斯克旗下的xAI团队，成为研究员。在加入之前，Izmailov因涉嫌泄露与Q算法相关的机密被OpenAI解雇，具体泄露内容尚未公开。此外，除了Izmailov，xAI近期也成功吸引了一批优秀人才，包括与Q算法领域有关的研究者。这次人才引进突出了xAI在AI领域的雄心及与OpenAI等公司的竞争态势。

2024-05-08 09:07:35 668

原创 OpenAI API搭建的智能家居助手；私密大型语言模型(LLM)聊天机器人；视频和音频文件的自动化识别和翻译工具

基于Raspberry Pi和OpenAI API搭建的智能家居助手GPT Home是一个基于Raspberry Pi和OpenAI API搭建的智能家居助手，功能上类似于Google Nest Hub或Amazon Alexa。通过详细的设置指南和配件列表，用户可以自行组装和配置这个设备，实现语音控制和智能家居管理的功能。

2024-05-07 15:26:53 1301

原创苹果自研大语言模型“Ajax“ 助力iOS 18升级；Stack Overflow与OpenAI建立API合作伙伴关系

苹果公司预计通过自研大语言模型Ajax来为iOS 18和Siri带来重大升级，但不计划推出类似ChatGPT的AI聊天机器人。Ajax模型基于Google的Jax框架，并在Google Cloud上运行，与市场上的大型语言模型竞争。苹果计划在iOS 18中部署的Ajax将运行在设备端，以提高响应速度和加强隐私保护。此外，苹果已吸纳数十名人工智能专家，并在瑞士苏黎世建立了秘密实验室，加大在人工智能领域的投入。

2024-05-07 09:15:05 1012

原创大模型模型简化机器人训练；简单易用的 3D 工具Project Neo；特斯拉放出了擎天柱机器人最新训练视频

相比之下，首先在模拟环境中训练，然后将训练好的策略迁移到真实世界（即所谓的sim-to-real转移），是一种更为高效和可行的策略。VILA是一种视觉语言模型（Visual Language Model，简称VLM），它通过大规模交错的图像-文本数据进行预训练，从而能够实现视频理解和多图像理解的能力。它特别适合于视频内容的分析、多图像间关系的推理，以及图像和文本信息的融合处理。Optimus是特斯拉（Tesla）开发的一款通用型人形机器人，视频中的机器人正在分拣电池，还可以看到Optimus的训练过程。

2024-05-06 15:50:34 792

原创 Altman确认：神秘Chatbot非GPT-4.5，OpenAI搜索引擎即将上线

摘要：IT之家报道，马斯克旗下社交平台X最近发布了一项新功能"Stories on X"，这一功能由Grok AI支持，能够自动生成关于新闻和热门话题的摘要。“Stories on X"旨在帮助用户迅速了解最新的头条新闻和他们感兴趣的内容。所有摘要内容均由Grok AI根据热门新闻和广泛讨论的公众话题生成。此外，X平台强调了Grok生成内容的免责声明，并提示用户验证信息的准确性。值得注意的是，X平台此前曾有一项类似由人工策划的功能"Moments”，不过该功能于2022年被取消。

2024-05-06 09:17:17 934

原创支持LLM的Markdown笔记；ComfyUI-HiDiffusion图片生成和对图像进行高质量编辑

Astra Assistant API Service是一个为OpenAI beta Assistants API设计的兼容服务，通过使用AstraDB（由DataStax提供的数据库服务，基于Apache Cassandra和jvector）增加了对持久线程、文件、助手、流式处理、检索、函数调用等更多功能的支持。该技术通常应用于图像的超分辨率、去噪、风格转换等方面。NeuralForecast是一个专为时间序列预测设计的开源库，重点在于提供一系列先进的、易于使用的神经网络模型，以优化预测的准确性与效率。

2024-05-05 15:20:19 887

原创用自然语言即可完全控制用户界面；无需调整的文本至图片生成的ID定制方法；OpenAI构建应用指南

PyWinAssistant内置了增强计算机人类使用效率的辅助选项，并采用新技术途径对用户界面和用户体验提供辅助和测试，通过空间思维的可视化正确概括任何自然语言提示，并计划执行操作系统中的正确操作，同时考虑到安全因素。利用一种叫做Lightning T2I（Text to Image）的技术分支以及标准的扩散模型，PuLID通过对比对齐损失和精确ID损失的结合，最小化对原始模型的干扰，同时确保高度的ID保真度。PuLID是一种新颖的无需调整的文本至图片生成的定制方法，通过对比对齐实现高ID保真度。

2024-05-04 17:20:14 1072

原创区域文本提示的实时文本到图像生成；通过一致性自注意力机制的视频生成工具保持视频的一致性；专门为雪佛兰汽车设计的客服聊天机器人

这项技术的引入，极大地提高了图像生成和编辑的灵活性和实用性，使得生成高分辨率的定制化图像变得更加快速和直观。：该技术能够在压缩的图像语义空间中预测条件图像之间的运动，从而实现大范围的运动预测。如果你正查找一种方法来增强你的内容库的上下文信息，使用LlamaParse预处理文件，再用LlamaIndex分析这些文件，可以为你的应用或服务提供更加丰富的信息层次。StreamMultiDiffusion通过提供实时、高质量的图像生成技术，开辟了图像创作的新领域，特别适合需要高度个性化和快速迭代的应用场景。

2024-05-03 20:14:41 945

原创通过自然语言处理执行特定任务的AI Agents；大模型控制NPC执行一系列的动作；个人化的电子邮件助手Panza

它的工作原理基于一种称为“数据回放”的数据集生成技术，通过此技术，Panza利用预训练的大型语言模型(LLM)来总结您过去的电子邮件，并将每封邮件转换为“(合成指令, 实际电子邮件)”对。通过使用基于大型语言模型（LLM）的技术，Gigax使得NPC能够执行一系列的动作，比如说话、跳跃、攻击等，这些动作都是根据游戏开发者的定义来执行的。此外，其支持的语言数量多，功能强大，不仅能识别文本，还能进行布局分析和阅读顺序检测，非常适合需要处理复杂文档的场景。macOS 设计的简洁易用的词典翻译应用。

2024-05-01 17:42:07 1082 1

原创用自然语言来编程GitHub Copilot；提高代码质量开源工具GPTLint；LLMs开源医学Meditron

这些模型是通过在丰富的医学领域语料上持续进行预训练，从Llama-2模型调整而来的，涵盖了精选的PubMed论文摘要、国际认可的医学指南新数据集，以及广泛的通用领域语料。Meditron特别适用于多种医学推理任务，并且经过相关数据的微调后，其表现超越了Llama-2-70B、GPT-3.5和Flan-PaLM等先前的模型。有人认为"gpt2-chatbot"可能是GPT-4.5、GPT-5或者是一个真正的GPT-2模型，其输出质量和表现引发了对其真实身份的猜测和讨论。

2024-04-30 15:35:39 825

原创 ChatGPT Plus用户开启“记忆”功能；英伟达市值飙升至2万亿美金成21世纪AI巨头

OpenAI公司近日对外宣布，其ChatGPT Plus用户现已可以使用“记忆”功能，允许ChatGPT能够记住用户在对话中提到的信息并根据此信息避开重复内容。用户还可以通过直接指令来管理ChatGPT所记住的信息，甚至是让其忘记特定内容。这项功能的开发旨在让聊天机器人能更好地理解和响应用户的需要，提高用户体验。此外，ChatGPT的记忆能力会随着使用的增加而逐步提升，为用户提供更加个性化的服务。

2024-04-30 09:09:40 298

原创照片特定风格变换Stylar AI；GPT-4V开源替代方案InternVL；纯C/C++实现的Stable Diffusion库；基于AI的数据爬取

Stylar AI是一款功能强大的AI图像编辑与设计工具，提供无与伦比的图片组合和风格控制。AI Photo Filter，简言之，就是使用人工智能技术来改善或改变图片的风格、质量和元素组合的一种工具。如果你想将你的照片转换成某种特定风格，比如油画风、复古风或漫画风，AI Photo Filter能够通过预定义的风格选项轻松实现，无需复杂的风格提示。目前生成一张图需要1个点，每天自动给200个点，也算是比较多了。

2024-04-29 20:45:00 1420

原创中国发布首个汽车大模型标准

中国信息通信研究院于4月28日发布了国内首个汽车大模型标准，标志着汽车行业正式迈向“人工智能＋”时代。该标准包含三个核心能力域：场景丰富度、能力支持度和应用成熟度，旨在评估汽车大模型在智能座舱、自动驾驶等场景的支持能力、AI技术的应用表现、以及在系统生态、部署定制等方面的成熟度。目前，包括华为的盘古、百度的文心一言、科大讯飞的星火等科技企业大模型，以及比亚迪的璇玑、小鹏的灵犀等车企自研大模型已经实现应用，超过10个品牌的汽车已搭载大模型技术。

2024-04-29 08:53:42 1115

原创 CharacterAI复现版开源，创建角色、自定义主题；Perplexity AI 搜索的开源替代品；把视频内容转换成博客文章

这个系统可以通过简单的部署，使用Node.js和Vue3搭建，支持多种大型语言模型（LLM）和搜索引擎，同时提供可定制化的漂亮用户界面（UI），支持暗黑模式、移动设备显示、多语言等功能。不同于一般的搜索引擎，Perplexica能理解你的问题，并使用先进的机器学习算法如相似性搜索和嵌入式来完善结果，提供有来源引用的清晰答案。PhysDreamer允许用户通过视频生成技术与3D对象进行互动，模拟真实世界中的物理现象，比如撞击、摩擦和重力影响，提供了一种沉浸式的交互体验。

2024-04-28 15:33:23 998

原创苹果可能将OpenAI技术集成至iOS/iPadOS 18

苹果正在与OpenAI就将GPT技术部署在iOS/iPadOS 18中进行谈判。这项技术被视为可能增强的Siri功能，即“AI聊天机器人”。除Siri外，新技术还可能改善Spotlight搜索、Safari浏览器、快捷指令、Apple Music等应用的功能。此外，苹果也在致力于自研设备端的大型语言模型，以减少对云端运算的依赖，并弥补其在某些方面的不足。同时还有传言称苹果可能在与谷歌讨论集成Gemini AI引擎到其系统中。

2024-04-28 09:17:21 1086 1

原创图片恢复光影效果；通过拖拽等操作编辑3D实物；Cohere开源RAG技术；智能对话客服工具ChatGPT-On-CS

想象一下，如果你想设计一个3D模型，比如一个机器人或者一个怪物，但是你不想从头开始创建，或者你已经有一个模型，但是想对它进行一些调整，比如改变它的某些部分，调整大小，或者甚至改变它的整体造型，Interactive3D可以帮助你实现这些。无论是在常见问题的快速处理，还是复杂咨询的智能应答上，ChatGPT-On-CS都能提供有效的解决方案。通过这种互动式的3D生成方式，用户可以更加直观和灵活地将他们的创意转化为现实中的3D模型，不仅提高了设计的效率，也为创造性的表达提供了更多的可能性。

2024-04-26 17:50:48 1490

原创 Adobe推出AI视频超分辨率工具VideoGigaGAN

Adobe公司最新推出的AI工具VideoGigaGAN，利用上采样技术将视频分辨率从128×128提升至1024×1024。这一工具基于GigaGAN模型开发，专注于生成视频超分辨率（VSR）领域。VideoGigaGAN能够生成既含有高频细节又保持时间一致性的视频图像。为了实现视频的时间一致性，研究人员在解码器块中引入了时间注意力层，将图像上采样器成功扩展为视频上采样器。该技术的介绍和展示进一步扩宽了视频处理技术的边界，为视频编辑和制作等领域带来新的可能性。

2024-04-26 09:22:36 1522

Android中使用FCM进行消息推送

Android中使用FCM进行消息推送完整的过程，包括在控制板中配置项目，安卓应用构建，在服务端中发送fcm消息。

2023-03-24

驱动开发的相关工具DebugView

包含DebugView，DriverMonitor，IRPTrace，WinObj，DeviceTree，DiskView，DriverManager，EzDriverInstaller

2022-06-13

PngButton.zip

MFC中把png资源加载到自定义按钮，可以了解到mfc中如何控制按钮的编写。

2019-08-08

WebRTC零基础开发者教程(中文).pdf

本文中提供下载的《WebRTC 零基础开发者教程》将以一个初学者的角度，从0开始逐步引导你掌握WebRTC开发的方方面面（当然，教程中更多的是操作性的内容，具体到技术原理和实现，显然不是本教程的讨论范畴）。

2019-06-14

webrtc.zip

WebRTC is a free, open project that provides browsers and mobile applications with Real-Time Communications (RTC) capabilities via simple APIs. The WebRTC components have been optimized to best serve this purpose. Our mission: To enable rich, high-quality RTC applications to be developed for the browser, mobile platforms, and IoT devices, and allow them all to communicate via a common set of protocols. The WebRTC initiative is a project supported by Google, Mozilla and Opera, amongst others. This page is maintained by the Google Chrome team.

2019-06-12

Getting-Started-with-Webrtc-2013-Rob-Manson.pdf

WebRTC（Web Real-Time Communication）项目的最终目的主要是让Web开发者能够基于浏览器（Chrome\FireFox\...）轻易快捷开发出丰富的实时多媒体应用，而无需下载安装任何插件，Web开发者也无需关注多媒体的数字信号处理过程，只需编写简单的Javascript程序即可实现，W3C等组织正在制定Javascript 标准API，目前是WebRTC 1.0版本，Draft状态；另外WebRTC还希望能够建立一个多互联网浏览器间健壮的实时通信的平台，形成开发者与浏览器厂商良好的生态环境。同时，Google也希望和致力于让WebRTC的技术成为HTML5标准之一，可见Google布局之深远。

2019-06-11

Android开发艺术探索

《Android开发艺术探索》是一本Android进阶类书籍，采用理论、源码和实践相结合的方式来阐述高水准的Android应用开发要点。《Android开发艺术探索》从三个方面来组织内容。第一，介绍Android开发者不容易掌握的一些知识点；第二，结合Android源代码和应用层开发过程，融会贯通，介绍一些比较深入的知识点；第三，介绍一些核心技术和Android的性能优化思想。

2019-02-27

21个项目玩转深度学习：基于TensorFlow的实践详解

我们正处在一个日新月异、飞速变革的时代，层出不穷的新技术每天都在冲击和改变我们的生活。人工智能无疑是其中最受关注、也是影响最深远的技术领域。它为计算机插上了翅膀，演变出许多从前根本无法想象的新技术、新应用。AlphaGo Zero——一台没有任何先验知识的人工智能机器，可以在几天内通过自我博弈成长为世界第一的围棋大师，超越人类几千年积累的经验；风格迁移应用能够自动将用户的照片转变为著名的绘画艺术风格；机器可以在零点几秒内完成翻译，把一种语言译成另一种语言。此外，有关人脸识别、自动驾驶等新技术的应用也都纷纷开始落地。在过去的几年内，人工智能技术不仅在学术上取得了巨大的突破，也开始走向寻常百姓家，真正为人们的生活提供便利。

2018-12-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人