自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

haleycat的博客

关注机器学习,人工智能

  • 博客(713)
  • 资源 (9)
  • 收藏
  • 关注

原创 微软AI版的语音自动操作助手来了;免费部署私人 Gemini 应用的开源项目TalkWithGemini;开源自动化测试Cover-Agent

Magic-animate通过预训练的StableDiffusion模型和经过MSE微调的VAE模型,实现对人物图像的动态动画生成。开发者可以减少构建时间,更多地投入创新,而生成式AI驱动的新自动化可能性则赋能更多用例,实现更佳的业务成果。地址:https://powerautomate.microsoft.com/en-us/blog/revolutionize-the-way-you-work-with-automation-and-ai/Khoj 是一个创建个人AI助手的应用程序,旨在扩展你的能力。

2024-05-23 16:58:23 464

原创 AI自动提取社交媒体视频的亮点;腾讯AI实验室利用多Agent大模型协作翻译超长文学文本;Sam Altman 给开发者的建议

在金矿热潮的兴奋中,很容易忽略这一点。现在不是拖延你计划要做的事情或等待下一个机会的时候,这是一个特殊的时刻,在接下来的几年里会发生很多事情,也会出现很多伟大的新事物。通过迭代进行对角去噪操作,FIFO-Diffusion能够处理一系列连续帧,并在噪声水平逐步增加的队列中进行处理,最终在队列头部得到完全去噪的帧,同时在尾部引入新的随机噪声帧。从实验结果来看,FIFO-Diffusion在不需要调优的情况下,能够生成具有高时间一致性和视觉质量的视频,相比传统的训练基础方法和其他无训练方法表现更为优越。

2024-05-22 17:24:16 543

原创 微软推出的ReCall历史记录AI搜索你会用吗?开源开箱即用RAG-Verba;从零开始实现Llama3

这些PC采用先进的处理器和AI模型,提供卓越的性能和电池寿命,并引入了多种新功能,如Recall(可以快速查找曾经在PC上见过的内容)、Cocreator(几乎实时生成和编辑AI图像)以及Live Captions(实时翻译并生成英语字幕)。Copilot+ PCs还支持多种流行的软件,如Adobe Photoshop和DaVinci Resolve Studio,并配备微软的Pluton安全处理器,增强设备的安全性。地址:https://github.com/sqlchat/sqlchat。

2024-05-21 17:29:48 998

原创 微软提出“Copilot+ PCs”构想,强调本地AI处理;OpenAI暂停ChatGPT语音功能因声音相似争议

在微软 Build 开发者前瞻大会上,CEO 萨蒂亚・纳德拉介绍了“Copilot+ PCs”,一种新类 Windows PC,需配备神经处理单元(NPU)以本地处理AI任务。合作伙伴包括高通、AMD、英特尔等,设备需提供至少40 TOPs性能。微软称重构的Windows 11使 Copilot+ PC性能领先最新 MacBook Air 58%,并具备超一天的续航时间。

2024-05-21 09:15:03 347

原创 开源AI搜索引擎Farfalle;用AI分析足球场上运动员的关键点;谷歌地图AI上的新更新;为网站添加真人版的语音朗读

现在,您可以将文字和图片结合起来,以一种全新的创新方式发现您正在搜索的内容 - 访问 Google 地图上数百万家本地商家的信息。地址:https://elevenlabs.io/blog/audio-native/如果开始下雨,请向地图询问“未雨绸缪的活动”,并获得附近的喜剧表演或电影院等建议。人工智能将使用谷歌地图的信息,包括业务细节、照片、评级和评论,以提供可靠的结果。发现附近的自动取款机、餐馆、公园和中转站,显示它们的营业时间和评级。查看逼真的视图,并获取有用的信息,如天气预报、人群高峰时间。

2024-05-20 18:08:03 1035

原创 OpenAI CEO回应离职股权争议;Meta发布混合模态模型Chameleon挑战GPT-4o“

OpenAI CEO 阿尔特曼回应离职条款争议,称公司从未收回任何人的股权,即使没有签署离职协议或不同意非贬低协议。他对该尴尬情况表示负责,并表示团队正在修复相关文件。前安全研究人员Jan Leike离职原因涉及公司安全文化问题,可能与保密协议有关。

2024-05-20 09:10:41 572

原创 吴恩达新写的提示工程技巧;ChatGPT推出了数据分析的增强功能;共享ChatGPT服务的解决方案

在2024年5月16日,ChatGPT推出了数据分析的增强功能,用户可以直接从Google Drive和Microsoft OneDrive上传文件,与表格和图表进行交互,并为演示和文档自定义和下载图表。ChatGPT 可以通过自动生成和运行 Python 代码来分析用户上传的数据文件,包括合并、清洗数据集,创建图表以及发现洞察,极大地简化了数据分析的流程。地址:https://openai.com/index/improvements-to-data-analysis-in-chatgpt/

2024-05-17 17:14:30 1007

原创 ChatGPT新功能支持连接云盘服务;百度一季度财报显示AI搜索占比11%

在百度2024年Q1财报电话会上,李彦宏宣布,11%的百度搜索结果由AI生成,未来搜索或成AI时代的杀手级应用。文心大模型用户突破2亿,日调用量达2亿。百度推出轻量级语言模型以及三大开发工具。Q1百度实现总营收315亿元,核心营收238亿元,App月活用户6.76亿,同比增长3%。

2024-05-17 09:17:27 337

原创 未来的语音AI模型会更像你的同事;开源Chrome扩展用来总结网页内容或进行对话;为任何扩散模型添加多语言生成能力

此外,MuLan还引入了语言适配器,这是一种轻量级模型(参数少于2000万),可以与许多其他模型和工具(例如LoRA、LCM、ControlNet等)无缝结合,不需要进行额外的微调。如果你有一个在特定语言(比如英文)上训练的扩散模型,但你希望它能理解和生成其他语言的输出,那么MuLan就是你需要的工具。Chatter AI语音机器人,你跟他对话,AI会播报重点新闻,你也可以根据自己的爱好,让他播报刚兴趣的新闻。地址:https://github.com/pipecat-ai/pipecat。

2024-05-16 17:35:38 1152

原创 谷歌举办Gemini API开发者大赛;ChatGPT iOS版更新支持中文

IT之家 5 月 15 日消息,在 2024 年谷歌 I/O 开发者大会上,谷歌宣布举办 Gemini API 开发者大赛,主要面向个人开发者和团队。比赛大奖是一辆电动版的1981 DeLorean 汽车,影视剧《回到未来》相关角色布朗博士的饰演者克里斯托弗・洛伊德也在宣传视频中亮相。参赛者需使用 Gemini API 创建应用程序,并依据五项指标进行评估,多个奖项类别将获得现金奖。提交截止日期为8月14日,获奖名单将于10月公布。

2024-05-16 08:50:20 399

原创 谷歌 I/O 2024大会全面硬钢OpenAI;腾讯宣布旗下的混元文生图大模型;阿里巴巴技术下的AI自动视频剪辑工具

谷歌 I/O 2024 发布了众多新技术,包括 Gemini AI、大语言模型和通用 AI 智能体等,全面颠覆搜索体验。:一个极其强大的语言模型,具备多模态支持和超长上下文(长达200万token)。它可以处理视频、音频和大量文本,让用户能方便地进行各种复杂任务,如总结会议要点、处理电子邮件等。:一个多功能的通用AI智能体,具备视觉识别和语音交互功能,不仅能识别并分析环境,还能执行各种任务,比如帮助用户填写退货单、找城市服务等。

2024-05-15 12:04:36 973

原创 谷歌I/O 2024大会全面硬刚OpenAI

谷歌展示了升级版的 Gemini 聊天机器人,其支持实时处理视频和语音输入,并准确回答问题。此次发布时机与 OpenAI 公布 ChatGPT-4o 新模型几乎同步。Gemini 的多模态能力和自然对话让人们看到了未来 AI 交互的潜力。

2024-05-15 09:06:00 677

原创 GPT-4o让世界再次明亮起来;不超过25美元让普通眼镜变智能;PDF自动化翻译工具

OS-Copilot是一个开源的软体库,它能建立可以自动操作操作系统各种元素的通用型代理,比如网页、代码终端、文件、多媒体以及各种第三方应用。这个项目的目标是提供一个既实惠又功能丰富的智能眼镜解决方案,用户可以通过这些智能眼镜记录生活、记住遇见的人、识别物体、翻译文字等等。是一个完全免费的、开源的、高速的聊天机器人前端应用。OpenGlass项目通过提供一个经济实惠且功能丰富的解决方案,扩大了智能眼镜的应用范围,使其不仅限于技术爱好者或有特殊需求的用户,而是更广泛的人群都能享受到智能眼镜带来的便利和乐趣。

2024-05-14 17:34:57 722 1

原创 OpenAI推出旗舰AI模型GPT-4o并免费开放

摘要:GPT-4o,将免费提供给所有用户。GPT-4o 具备语音、文本和图像处理能力,具备即时响应及语音交互功能,并可根据指令调整语气和唱歌。与以往不同,GPT-4o 将免费开放,付费用户享受五倍调用额度。摘要:5 月 13 日,Anthropic 更新服务政策,将从 6 月 6 日起开放未成年人使用 AI 模型服务。该公司禁止将 AI 用于侵犯隐私,并改名“使用政策”,强调用户责任。Anthropic 还指出允许未成年用户通过 API 访问 AI 模型,注意到其潜在教育用途。同时,明文禁止开发辨识情感的系

2024-05-14 09:19:51 799

原创 Poetry Camera照相机将照片转换成诗歌并打印出来;吴恩达新课程深入了解Mistral;科学研究AI小助手data-to-paper

假如你是一名正在寻找科研创新方法的研究者,或者你想快速验证某个假设,又或者你是一名学生,正在学习如何进行科学研究,data-to-paper都可以为你提供巨大的帮助。这就是data-to-paper的魔力。无论是在生日派对上,为朋友之间的美好时光留下独特的纪念,还是在一个人旅行时,捕捉旅途中遇到的各种风景并附上一首诗,Poetry Camera都能增加这些经历的乐趣和深度。无论是作为一个创意的个人项目,还是作为一个独特的礼物,Poetry Camera都能够提供一种全新的视角,让你用诗意的方式来记录世界。

2024-05-13 18:08:58 923

原创 OpenAI 今日(北京时间 5 月 14 日凌晨两点)将发布的大更新,不是 GPT-5,也不是搜索引擎

OpenAI 预计即将推出一款新的 AI 语音助手,该助手不仅可以进行语音和文字交流,还能识别物体和图像,并具备逻辑推理能力,有望成为超级智能的 AI。预计OpenAI 在定价模式上有新动作,预计将迎来数十亿美元的收入,并推出折扣预订方式,以及降低成本的 API 接口,展现出与其他模型开发人员和 AI 服务器经销商的竞争实力。

2024-05-13 09:03:27 1053

原创 发布GPT-5的方式可能会与以往不同;开源vocode使用 AI 自动拨打电话;开源gpt智能对话客服工具;AI自动写提示词

用AI通过声音与用户进行实时交流Vocode是一个旨在帮助开发者快速构建基于声音的大型语言模型(LLM)应用程序的开源库。简单来说,如果你想要开发一个能够通过声音与用户进行实时交流的应用,比如电话机器人、语音助手,或者是可以通过语音操作的游戏(比如语音指令下棋),Vocode提供了一套工具和集成服务,使这个过程变得更加简单和快捷。地址:https://github.com/vocodedev/vocode-python基于大型语言模型(如GPT-3.5/GPT-4.0)的智能对话客服工具。

2024-05-11 18:14:52 1015

原创 OpenAI不会发布GPT-5 及AI搜索引擎;苹果iOS 18将为备忘录应用带来AI升级

OpenAI宣布将在5月13日进行网络直播,讲述ChatGPT升级内容。Sam Altman在X平台明确表示,下周一不会发布GPT-5和AI搜索引擎,但他强调公司正在开发一些他认为人们会喜欢的新产品。此前有传闻OpenAI正秘密开发网络搜索服务,并得到微软Bing的支持,计划于下周一正式发布。但从Altman的说法看,OpenAI似乎还未准备好推出其搜索产品。

2024-05-11 09:12:19 618

原创 使用LlamaIndex构建能对文档进行推理;大模型自动执行基于浏览器的工作流;ElevenLabs宣布进军音乐创作领域

DiffMOT是2024年引入的一个前沿的多目标追踪(Multiple Object Tracking,简称MOT)方法,其全称是“A Real-time Diffusion-based Multiple Object Tracker with Non-linear Prediction”,即“基于扩散的实时多目标追踪器,带有非线性预测功能”。这种方法的特点是利用了扩散模型进行目标的追踪,尤其是在复杂的动态场景中,通过非线性预测来提高追踪的精确度和鲁棒性。这包括动态路由,能够从不同的工具中进行动态选择;

2024-05-10 17:39:33 1061

原创 清华团队开发首个AI医院小镇模拟系统;阿里云发布通义千问 2.5:超越GPT-4能力;Mistral AI估值飙升至60亿美元

来自清华的研究团队最近开发出了一种创新的模拟系统,名为"Agent Hospital",该系统能够完全模拟医患看病的全流程,其中包括分诊、挂号、咨询、检查、诊断和治疗等各个环节。这个虚拟世界的所有角色,包括医生、护士和患者,均由LLM(语言模型)驱动的智能体充当,在模拟环境中,这些AI医生能够通过与患者智能体的交互,自主进化,并在几天内完成对大约1万名患者的治疗,展现出比人类医生更高效的处理能力。这一研究不仅展示了多智能体系统在医疗领域的潜力,也为未来智能化医疗提供了新的视角。

2024-05-10 09:06:32 748

原创 为何预测预测蛋白质结构这么重要AlphaFold 3;阿里巴巴的开源语音转文字;抱抱脸开源LeRobot

IC-Light是一个专门针对图像照明操作的项目,名字中的"IC"代表"Imposing Consistent Light"(即"强制一致的光线"),其目的在于通过高级技术操作,确保图像在不同光照条件下也能保持一致和自然的视觉效果。IC-Light是一个非常强大的工具,尤其适合那些需要精细控制图像照明效果的专业人士或爱好者,无论是想要为单张图片制造特定的光照氛围,还是想要将图像自然合成到不同背景中,IC-Light都能提供有效的解决方案。能实现文本条件和背景条件下的图像重照明。

2024-05-09 17:27:22 724

原创 生成式AI人才需求激增,薪资水平高昂;OpenAI正在开发全新搜索引擎,AI助力搜索革新

近期,随着人工智能的广泛应用和发展,生成式人工智能(AIGC)在招聘市场上异常火爆。据央视财经报道,今年一季度,AIGC相关岗位的需求同比增长超过三倍,人才供不应求。一家大型AI软件公司表示,由于人手不足,其移动端程序升级计划受阻。从全职位范围看,需求同比增长超过320%,求职者投递数量也高达同比增长9倍以上。生成式人工智能岗位的平均年薪在40万元以上,专业人才薪资更是高达50万元以上,显示了该领域的热度及人才的稀缺性。

2024-05-09 09:05:06 1055

原创 粘土制作的梵高世界;实时自由地转换您的声音Supertone;几秒钟内设计出令人惊叹的LOGO

它的特色在于,不需要用户进行复杂的提示工程,即可生成令人印象深刻的标志,并且还配备了内置视觉编辑器,用户可以通过它调整输出,指导AI生成完美的标志。地址:https://aws.amazon.com/cn/blogs/aws/build-rag-and-agent-based-generative-ai-applications-with-new-amazon-titan-text-premier-model-available-in-amazon-bedrock/IBM推出的一系列编码生成模型。

2024-05-08 17:45:15 1073 1

原创 OpenAI泄密者加入马斯克xAI,技术版图扩张;OpenAI推出可识别DALL·E 3图像的AI检测工具

最近,曾在OpenAI任职并被指控泄露机密的Pavel Izmailov迅速加入了马斯克旗下的xAI团队,成为研究员。在加入之前,Izmailov因涉嫌泄露与Q算法相关的机密被OpenAI解雇,具体泄露内容尚未公开。此外,除了Izmailov,xAI近期也成功吸引了一批优秀人才,包括与Q算法领域有关的研究者。这次人才引进突出了xAI在AI领域的雄心及与OpenAI等公司的竞争态势。

2024-05-08 09:07:35 668

原创 OpenAI API搭建的智能家居助手;私密大型语言模型(LLM)聊天机器人;视频和音频文件的自动化识别和翻译工具

基于Raspberry Pi和OpenAI API搭建的智能家居助手GPT Home是一个基于Raspberry Pi和OpenAI API搭建的智能家居助手,功能上类似于Google Nest Hub或Amazon Alexa。通过详细的设置指南和配件列表,用户可以自行组装和配置这个设备,实现语音控制和智能家居管理的功能。

2024-05-07 15:26:53 1301

原创 苹果自研大语言模型“Ajax“ 助力iOS 18升级;Stack Overflow与OpenAI建立API合作伙伴关系

苹果公司预计通过自研大语言模型Ajax来为iOS 18和Siri带来重大升级,但不计划推出类似ChatGPT的AI聊天机器人。Ajax模型基于Google的Jax框架,并在Google Cloud上运行,与市场上的大型语言模型竞争。苹果计划在iOS 18中部署的Ajax将运行在设备端,以提高响应速度和加强隐私保护。此外,苹果已吸纳数十名人工智能专家,并在瑞士苏黎世建立了秘密实验室,加大在人工智能领域的投入。

2024-05-07 09:15:05 1012

原创 大模型模型简化机器人训练;简单易用的 3D 工具Project Neo;特斯拉放出了擎天柱机器人最新训练视频

相比之下,首先在模拟环境中训练,然后将训练好的策略迁移到真实世界(即所谓的sim-to-real转移),是一种更为高效和可行的策略。VILA是一种视觉语言模型(Visual Language Model,简称VLM),它通过大规模交错的图像-文本数据进行预训练,从而能够实现视频理解和多图像理解的能力。它特别适合于视频内容的分析、多图像间关系的推理,以及图像和文本信息的融合处理。Optimus是特斯拉(Tesla)开发的一款通用型人形机器人,视频中的机器人正在分拣电池,还可以看到Optimus的训练过程。

2024-05-06 15:50:34 792

原创 Altman确认:神秘Chatbot非GPT-4.5,OpenAI搜索引擎即将上线

摘要:IT之家报道,马斯克旗下社交平台X最近发布了一项新功能"Stories on X",这一功能由Grok AI支持,能够自动生成关于新闻和热门话题的摘要。“Stories on X"旨在帮助用户迅速了解最新的头条新闻和他们感兴趣的内容。所有摘要内容均由Grok AI根据热门新闻和广泛讨论的公众话题生成。此外,X平台强调了Grok生成内容的免责声明,并提示用户验证信息的准确性。值得注意的是,X平台此前曾有一项类似由人工策划的功能"Moments”,不过该功能于2022年被取消。

2024-05-06 09:17:17 934

原创 支持LLM的Markdown笔记;ComfyUI-HiDiffusion图片生成和对图像进行高质量编辑

Astra Assistant API Service是一个为OpenAI beta Assistants API设计的兼容服务,通过使用AstraDB(由DataStax提供的数据库服务,基于Apache Cassandra和jvector)增加了对持久线程、文件、助手、流式处理、检索、函数调用等更多功能的支持。该技术通常应用于图像的超分辨率、去噪、风格转换等方面。NeuralForecast是一个专为时间序列预测设计的开源库,重点在于提供一系列先进的、易于使用的神经网络模型,以优化预测的准确性与效率。

2024-05-05 15:20:19 887

原创 用自然语言即可完全控制用户界面;无需调整的文本至图片生成的ID定制方法;OpenAI构建应用指南

PyWinAssistant内置了增强计算机人类使用效率的辅助选项,并采用新技术途径对用户界面和用户体验提供辅助和测试,通过空间思维的可视化正确概括任何自然语言提示,并计划执行操作系统中的正确操作,同时考虑到安全因素。利用一种叫做Lightning T2I(Text to Image)的技术分支以及标准的扩散模型,PuLID通过对比对齐损失和精确ID损失的结合,最小化对原始模型的干扰,同时确保高度的ID保真度。PuLID是一种新颖的无需调整的文本至图片生成的定制方法,通过对比对齐实现高ID保真度。

2024-05-04 17:20:14 1072

原创 区域文本提示的实时文本到图像生成;通过一致性自注意力机制的视频生成工具保持视频的一致性;专门为雪佛兰汽车设计的客服聊天机器人

这项技术的引入,极大地提高了图像生成和编辑的灵活性和实用性,使得生成高分辨率的定制化图像变得更加快速和直观。:该技术能够在压缩的图像语义空间中预测条件图像之间的运动,从而实现大范围的运动预测。如果你正查找一种方法来增强你的内容库的上下文信息,使用LlamaParse预处理文件,再用LlamaIndex分析这些文件,可以为你的应用或服务提供更加丰富的信息层次。StreamMultiDiffusion通过提供实时、高质量的图像生成技术,开辟了图像创作的新领域,特别适合需要高度个性化和快速迭代的应用场景。

2024-05-03 20:14:41 945

原创 通过自然语言处理执行特定任务的AI Agents;大模型控制NPC执行一系列的动作;个人化的电子邮件助手Panza

它的工作原理基于一种称为“数据回放”的数据集生成技术,通过此技术,Panza利用预训练的大型语言模型(LLM)来总结您过去的电子邮件,并将每封邮件转换为“(合成指令, 实际电子邮件)”对。通过使用基于大型语言模型(LLM)的技术,Gigax使得NPC能够执行一系列的动作,比如说话、跳跃、攻击等,这些动作都是根据游戏开发者的定义来执行的。此外,其支持的语言数量多,功能强大,不仅能识别文本,还能进行布局分析和阅读顺序检测,非常适合需要处理复杂文档的场景。macOS 设计的简洁易用的词典翻译应用。

2024-05-01 17:42:07 1082 1

原创 用自然语言来编程GitHub Copilot;提高代码质量开源工具GPTLint;LLMs开源医学Meditron

这些模型是通过在丰富的医学领域语料上持续进行预训练,从Llama-2模型调整而来的,涵盖了精选的PubMed论文摘要、国际认可的医学指南新数据集,以及广泛的通用领域语料。Meditron特别适用于多种医学推理任务,并且经过相关数据的微调后,其表现超越了Llama-2-70B、GPT-3.5和Flan-PaLM等先前的模型。有人认为"gpt2-chatbot"可能是GPT-4.5、GPT-5或者是一个真正的GPT-2模型,其输出质量和表现引发了对其真实身份的猜测和讨论。

2024-04-30 15:35:39 825

原创 ChatGPT Plus用户开启“记忆”功能;英伟达市值飙升至2万亿美金 成21世纪AI巨头

OpenAI公司近日对外宣布,其ChatGPT Plus用户现已可以使用“记忆”功能,允许ChatGPT能够记住用户在对话中提到的信息并根据此信息避开重复内容。用户还可以通过直接指令来管理ChatGPT所记住的信息,甚至是让其忘记特定内容。这项功能的开发旨在让聊天机器人能更好地理解和响应用户的需要,提高用户体验。此外,ChatGPT的记忆能力会随着使用的增加而逐步提升,为用户提供更加个性化的服务。

2024-04-30 09:09:40 298

原创 照片特定风格变换Stylar AI;GPT-4V开源替代方案InternVL;纯C/C++实现的Stable Diffusion库;基于AI的数据爬取

Stylar AI是一款功能强大的AI图像编辑与设计工具,提供无与伦比的图片组合和风格控制。AI Photo Filter,简言之,就是使用人工智能技术来改善或改变图片的风格、质量和元素组合的一种工具。如果你想将你的照片转换成某种特定风格,比如油画风、复古风或漫画风,AI Photo Filter能够通过预定义的风格选项轻松实现,无需复杂的风格提示。目前生成一张图需要1个点,每天自动给200个点,也算是比较多了。

2024-04-29 20:45:00 1420

原创 中国发布首个汽车大模型标准

中国信息通信研究院于4月28日发布了国内首个汽车大模型标准,标志着汽车行业正式迈向“人工智能+”时代。该标准包含三个核心能力域:场景丰富度、能力支持度和应用成熟度,旨在评估汽车大模型在智能座舱、自动驾驶等场景的支持能力、AI技术的应用表现、以及在系统生态、部署定制等方面的成熟度。目前,包括华为的盘古、百度的文心一言、科大讯飞的星火等科技企业大模型,以及比亚迪的璇玑、小鹏的灵犀等车企自研大模型已经实现应用,超过10个品牌的汽车已搭载大模型技术。

2024-04-29 08:53:42 1115

原创 CharacterAI复现版开源,创建角色、自定义主题;Perplexity AI 搜索的开源替代品;把视频内容转换成博客文章

这个系统可以通过简单的部署,使用Node.js和Vue3搭建,支持多种大型语言模型(LLM)和搜索引擎,同时提供可定制化的漂亮用户界面(UI),支持暗黑模式、移动设备显示、多语言等功能。不同于一般的搜索引擎,Perplexica能理解你的问题,并使用先进的机器学习算法如相似性搜索和嵌入式来完善结果,提供有来源引用的清晰答案。PhysDreamer允许用户通过视频生成技术与3D对象进行互动,模拟真实世界中的物理现象,比如撞击、摩擦和重力影响,提供了一种沉浸式的交互体验。

2024-04-28 15:33:23 998

原创 苹果可能将OpenAI技术集成至iOS/iPadOS 18

苹果正在与OpenAI就将GPT技术部署在iOS/iPadOS 18中进行谈判。这项技术被视为可能增强的Siri功能,即“AI聊天机器人”。除Siri外,新技术还可能改善Spotlight搜索、Safari浏览器、快捷指令、Apple Music等应用的功能。此外,苹果也在致力于自研设备端的大型语言模型,以减少对云端运算的依赖,并弥补其在某些方面的不足。同时还有传言称苹果可能在与谷歌讨论集成Gemini AI引擎到其系统中。

2024-04-28 09:17:21 1086 1

原创 图片恢复光影效果;通过拖拽等操作编辑3D实物;Cohere开源RAG技术;智能对话客服工具ChatGPT-On-CS

想象一下,如果你想设计一个3D模型,比如一个机器人或者一个怪物,但是你不想从头开始创建,或者你已经有一个模型,但是想对它进行一些调整,比如改变它的某些部分,调整大小,或者甚至改变它的整体造型,Interactive3D可以帮助你实现这些。无论是在常见问题的快速处理,还是复杂咨询的智能应答上,ChatGPT-On-CS都能提供有效的解决方案。通过这种互动式的3D生成方式,用户可以更加直观和灵活地将他们的创意转化为现实中的3D模型,不仅提高了设计的效率,也为创造性的表达提供了更多的可能性。

2024-04-26 17:50:48 1490

原创 Adobe推出AI视频超分辨率工具VideoGigaGAN

Adobe公司最新推出的AI工具VideoGigaGAN,利用上采样技术将视频分辨率从128×128提升至1024×1024。这一工具基于GigaGAN模型开发,专注于生成视频超分辨率(VSR)领域。VideoGigaGAN能够生成既含有高频细节又保持时间一致性的视频图像。为了实现视频的时间一致性,研究人员在解码器块中引入了时间注意力层,将图像上采样器成功扩展为视频上采样器。该技术的介绍和展示进一步扩宽了视频处理技术的边界,为视频编辑和制作等领域带来新的可能性。

2024-04-26 09:22:36 1522

Android中使用FCM进行消息推送

Android中使用FCM进行消息推送完整的过程,包括在控制板中配置项目,安卓应用构建,在服务端中发送fcm消息。

2023-03-24

驱动开发的相关工具DebugView

包含DebugView,DriverMonitor,IRPTrace,WinObj,DeviceTree,DiskView,DriverManager,EzDriverInstaller

2022-06-13

PngButton.zip

MFC中把png资源加载到自定义按钮,可以了解到mfc中如何控制按钮的编写。

2019-08-08

WebRTC零基础开发者教程(中文).pdf

本文中提供下载的《WebRTC 零基础开发者教程》将以一个初学者的角度,从0开始逐步引导你掌握WebRTC开发的方方面面(当然,教程中更多的是操作性的内容,具体到技术原理和实现,显然不是本教程的讨论范畴)。

2019-06-14

webrtc.zip

WebRTC is a free, open project that provides browsers and mobile applications with Real-Time Communications (RTC) capabilities via simple APIs. The WebRTC components have been optimized to best serve this purpose. Our mission: To enable rich, high-quality RTC applications to be developed for the browser, mobile platforms, and IoT devices, and allow them all to communicate via a common set of protocols. The WebRTC initiative is a project supported by Google, Mozilla and Opera, amongst others. This page is maintained by the Google Chrome team.

2019-06-12

Getting-Started-with-Webrtc-2013-Rob-Manson.pdf

WebRTC(Web Real-Time Communication)项目的最终目的主要是让Web开发者能够基于浏览器(Chrome\FireFox\...)轻易快捷开发出丰富的实时多媒体应用,而无需下载安装任何插件,Web开发者也无需关注多媒体的数字信号处理过程,只需编写简单的Javascript程序即可实现,W3C等组织正在制定Javascript 标准API,目前是WebRTC 1.0版本,Draft状态;另外WebRTC还希望能够建立一个多互联网浏览器间健壮的实时通信的平台,形成开发者与浏览器厂商良好的生态环境。同时,Google也希望和致力于让WebRTC的技术成为HTML5标准之一,可见Google布局之深远。

2019-06-11

Android开发艺术探索

《Android开发艺术探索》是一本Android进阶类书籍,采用理论、源码和实践相结合的方式来阐述高水准的Android应用开发要点。《Android开发艺术探索》从三个方面来组织内容。第一,介绍Android开发者不容易掌握的一些知识点;第二,结合Android源代码和应用层开发过程,融会贯通,介绍一些比较深入的知识点;第三,介绍一些核心技术和Android的性能优化思想。

2019-02-27

21个项目玩转深度学习:基于TensorFlow的实践详解

我们正处在一个日新月异、飞速变革的时代,层出不穷的新技术每天都在冲击和改变我们的生活。人工智能无疑是其中最受关注、也是影响最深远的技术领域。它为计算机插上了翅膀,演变出许多从前根本无法想象的新技术、新应用。AlphaGo Zero——一台没有任何先验知识的人工智能机器,可以在几天内通过自我博弈成长为世界第一的围棋大师,超越人类几千年积累的经验;风格迁移应用能够自动将用户的照片转变为著名的绘画艺术风格;机器可以在零点几秒内完成翻译,把一种语言译成另一种语言。此外,有关人脸识别、自动驾驶等新技术的应用也都纷纷开始落地。在过去的几年内,人工智能技术不仅在学术上取得了巨大的突破,也开始走向寻常百姓家,真正为人们的生活提供便利。

2018-12-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除