音视频技术开发周刊 | 301

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

810e6475e9cf501d5e8859ed1fb0d0a3.png

微软、谷歌、亚马逊,打响大模型时代的云战争

过去数月,云巨头们砸下真金白银,研发大模型、战略投资、自研 AI 芯片……大模型的时代方兴未艾,他们已经瞄准了新一代的 AI 软件客户。这篇文章围绕几大海外云巨头进行梳理,试图阐述“什么是今天云厂商们竞争的关键”。

北大开源首个中文法律大模型——ChatLaw

目前,ChatLaw法律大模型提供ChatLaw-13B、ChatLaw-33B和ChatLaw-Text2Vec三个版本,底座为姜子牙-13B、Anima-33B。使用了大量法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本来构造对话数据。

清华系面壁智能开源中文多模态大模型VisCPM 

VisCPM 是由面壁智能、清华大学 NLP 实验室和知乎联合开源在 OpenBMB 的多模态大模型系列,其中 VisCPM-Chat 模型支持中英双语的多模态对话能力,VisCPM-Paint 模型支持文到图生成能力,评测显示 VisCPM 在中文多模态开源模型中达到最佳水平。

Inflection融资13亿美元,总融资额仅次于OpenAI

北京时间6月29日晚,总部位于加州的人工智能初创公司Inflection宣布完成13亿美元的最新一轮融资,由微软、英伟达和三位亿万富翁(Reid Hoffman、Bill Gates和Eric Schmidt)牵头投资。据福布斯报道,Inflection的最新估值为40亿美元。本轮融资资金将用于支持Inflection自研的首款名为Pi的人工智能助手。

fef6ea86ebd0e412c41be967c8bc17e4.png

OpenAI到底做对了什么?

一个区区两三百人(在去年底推出ChatGPT时,OpenAI团队大约270人)的创业公司,何以在众多巨头逐鹿多年的AI竞技场一路披荆斩棘,摘得通用人工智能的圣杯?无论在硅谷,还是在国内,很多人都在问:为什么AGI这样史诗级的革命,背后的核心推手竟然是OpenAI这样的创业公司?OpenAI到底做对了什么?

抓住机遇,积极应对生成式人工智能挑战

但每一项的挑战和改变,必然也意味着新的机会。我们应找准定位,不断寻找探索挑战中蕴含的发展机遇。

DreamDiffusion:从脑电图信号生成高质量图像

这篇论文由清华大学国际研究生院、Tencent AI实验室等撰写,介绍一种可以直接从脑电图(EEG)信号中生成高质量的图像的方法,而无需先将思维转化为文本再生成图像。定量和定性结果证明了该方法作为实现“思维到图像”转换的重要一步,具有潜在的神经科学和计算机视觉应用的可行性。

https://arxiv.org/abs/2306.16934

陶哲轩转赞!ChatGPT自动证明重大突破

尽管许多人并不愿意承认,但是很可能,AI会在十年内赶超人类数学家。

3ac28a2a1ed910003691c5df605a4aa9.png

中科院团队用AI设计了一颗CPU

六月底,来自中科院的团队在预印本平台arxiv上发表了重磅论文《Pushing the Limits of Machine Design:Automated CPU Design with AI》(机器设计新突破:使用人工智能自动设计CPU),其中使用了人工智能的方法,成功地在5个小时内完成了一个基于RISC-V指令集的CPU的设计,而且该设计经过后端布局布线后已经成功流片点亮并且能运行Linux和Dhrystone。

芯片管制附加作用:除了设备限制出口外,中国人求职也受限制

这几天荷兰正式出台了限制半导体设备海外出口的法令,这样美国、日本和荷兰正式形成了针对中国半导体技术封锁的铁三角,考虑到这三个国家在半导体以及芯片领域的影响力和技术能力,可以说出口限制会极大程度影响到其他国家在半导体领域上的发展,这其中首当其冲的自然还是中国。

富士康们,抢攻芯片

越来越多的台系厂商近年来逐渐开始转型,寻求技术升级,以提供更高附加值的产品和服务,向上游芯片领域进击是他们的一大选择。

bce8d7b50e6b04903c2e9c632a53ab0f.jpeg

斯坦福大学吴佳俊:通过自然监督编码理解视觉世界

斯坦福大学助理教授吴佳俊带来了精彩的演讲 “通过自然监督编码理解视觉世界”(Understanding the Visual World Through Naturally Supervised Code)。此次演讲从二维图像拓展到三维世界,从人类和自然的先验知识中汲取灵感并应用至生成神经网络。

不“完美”的摄像头眼睛 :人类

想要做一个能够整体超过人眼的相机,首先我们需要分析眼睛到底是一个什么样水平的相机呢?

e6e5aafcd988d9f0f3618f7f0485f8f1.png

Magic123:使用2D和3D扩散先验从单张图像生成高质量的3D物体

这篇论文提出了Magic123,一种使用2D和3D先验的两阶段粗到精的方法,用于从单张未姿态化的图像中生成高质量的带纹理3D网格。在第一阶段,通过优化神经辐射场来生成粗略几何结构。在第二阶段,采用内存高效的可微网格表示,得到具有视觉吸引力纹理的高分辨率网格。

https://arxiv.org/abs/2306.17843

音视频学习--图像编辑开源库

这篇文章介绍了8种图像编辑的开源工具。

数十亿人用过的流行开源图像编解码器缺钱,停更

在 libjpeg-turbo 3.0.0 刚完成发布之际,项目的首席开发人员 DRC 就表示,由于资金短缺,其未来的功能开发或将受到限制,可能永远不会有 libjpeg-turbo 3.1 版本。

眼睛也分主次,你的大脑更“偏心”哪一只眼?

你知道吗,人的眼睛是分主副眼的,在专业术语上称为优势眼和非优势眼,或左 / 右利眼,就像左 / 右利手一样。

69462f60d15e30179b583a8b25e5b206.png

直播 RTM 推流在抖音的应用与优化

抖音评测实验室团队为抖音直播编码优化助力,支持直播各个场景开启B帧提高视频压缩效率,可以用于提升画质或者节省带宽成本。

PACC: RTC 下基于用户感知的拥塞控制

这篇论文中,作者针对 RTC 提出了基于感知的拥塞控制(PACC: Perception-Aware Congestion Control)。利用卷积神经网络(CNN),论文作者开发了一个质量评估模型来预测视频质量。借助于用户感知的变化趋势分析,PACC 将朝着更好的 QoE 方向去调整码率。

实时视觉通信的盲质量评价

用户产生的内容(如社交媒体,对话视频)通常没有高质量视频作为参考,必须在没有任何参考的情况下进行质量评价,也就是所谓的盲质量评价。

基于MEC的太赫兹无线网络辅助沉浸式VR视频流媒体:一种深度强化学习方法

这篇论文提出了一种最小化基于THz无线接入的MEC系统长期能耗的方法,通过联合优化视口渲染卸载和下行发射功率控制,为高质量沉浸式VR视频服务提供支持。

https://ieeexplore.ieee.org/document/9120235

a00ea3c576f464d1811c98ef055900dc.png

Interspeech2023 | DualVC—基于模型内蒸馏与混合预测编码的双模语音转换模型

西工大音频语音与语言处理研究组(ASLP@NPU)和网易伏羲合作论文“DualVC: Dual-mode Voice Conversion using Intra-model Knowledge Distillation and Hybrid Predictive Coding ”被语音研究顶级会议INTERSPEECH2023接收。该论文提出一种结合模型内蒸馏与混合预测编码的语音转换模型DualVC,能在一个模型中同时实现流式与整段推理(非流式)两种转换模式。

腾讯会议 AI 音频技术的价值外溢,用软件和服务为助听行业打开新格局

天籁实验室利用腾讯会议 AI 音频技术的积累,以公益的初心开拓新领域,用软件和远程验配服务,帮助助听设备厂商打通从助听器到测听、验配的闭环,为国内助听行业的发展打开了新格局。

用耳朵做选择|监听音箱的主观评估方法

监听音箱可以作为一套监听系统、一项制作任务、音频工程师/音乐制作人的声音基准,然而它在信号链中处于一个独特的位置。你所听到的它发出来的声音,要比音频路径的任何其他设备(比如音频处理器)受到更多的变量影响。

d6c7b278c9dd1dae54beda73d081e9c3.png

W3C 计划成立隐私标准工作组

W3C 计划成立隐私标准工作组,现开始筹备小组章程界定标准化范畴及工作模式。隐私工作组的任务是为各标准小组提供建议以避免和减轻 Web 技术相关隐私问题,对提升用户隐私的技术机制进行标准化,进而改善 Web 上的隐私。

489ec37040c6322d3f66b1b08a06ac83.png

Meta眼中的VR办公:确定的方向,不确定的时间

VR 是否会很快成为我们工作生活中常见的一部分还有待观察,但该技术在提升会议体验方面有很大潜力。

Google AR 眼镜项目 Iris 被砍,未来还是想做 AR 界的 Android!

尽管 Google 向 Project Iris 投入了数年的研发,但在今年稍早时候,其实就已经决定放弃了该项目。

0ef6a492354eeba51a64d75c5c342597.jpeg

开源编解码器 SVT-AV1发布1.6.0版本:性能提升三至四成

SVT-AV1编码器发布新版本,官方更新日志显示v1.6.0最大带来40%的速度提升。

https://gitlab.com/AOMediaCodec/SVT-AV1/-/releases/v1.6.0  

9cd3e8053c3393e5a3654f8b6a7b99a7.png

高通白皮书发布:混合 AI 是 AI 的未来

高通在白皮书中提到,随着生成式 AI 正以前所未有的速度发展以及计算需求的日益增长,AI 处理必须分布在云端和终端进行,才能实现 AI 的规模化扩展并发挥其最大潜能——正如传统计算从大型主机和瘦客户端演变为当前云端和边缘终端相结合的模式。与仅在云端进行处理不同,混合 AI 架构在云端和边缘终端之间分配并协调 AI 工作负载。

《从营销AIGC化到AIGC营销化》报告发布

7月2日上午,清华大学元宇宙文化实验室举办元宇宙在线沙龙“AIGC热潮与应用”。会议中,清华大学新闻与传播学院教授、元宇宙文化实验室主任、新媒体研究中心执行主任沈阳,对清华大学新闻与传播学院新媒体研究中心和华扬联众共同创作的报告《从营销AIGC化到AIGC营销化》进行了解读。

78ced0739a199d55899bbd1101d1a032.png

Coatue的年度预言:衰退与复兴并存的未来12个月

在今年,Coatue进一步指出衰退时代的来临,同时指出下一个科技超级周期的“突破”时刻:AI可能成为经济新的生命线。

什么是“审美茧房”?| 芒种观点

互联网与数字技术的发展破坏了传统审美实践赖以维系的媒介间性,通过不断挤压“反思”和“协商”在审美实践体系中的存在空间,消弭了文化公共性在审美实践中得以形成所必需的批判性距离,进而全面导致了大众品位的私人化,制造了“审美茧房”。

f9d5de517d4ec0af2052fe9f1c187b1f.png

LiveVideoStackCon 2023 上海站日程发布

LiveVideoStackCon 2023 上海站音视频技术大会以「沉浸·新视界」为主题,除了探索音视频技术在不同场景下的融合与发展外,还增添了游戏、AIGC和数字化行业案例等新鲜火爆的话题。在这里,你可以感受到多媒体生态内的头部公司、顶级玩家对行业当前发展趋势、瓶颈挑战,与对未来规划的深入解读。

我们将邀请60余位顶级讲师聚集一堂,与你共同分享他们的专业见解。这是一个与业内顶尖专家进行深入交流的绝佳机会,你将有机会亲自与他们面对面,从他们丰富的经验中获得宝贵的技术心得。

cd859d040ccb6920123b4c10dd9ae349.png

扫描图中二维码或点击“阅读原文 

查看更多LveVideoStackCon 2023上海站精彩话题

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
【优质项目推荐】 1、项目代码均经过严格本地测试,运行OK,确保功能稳定后才上传平台。可放心下载并立即投入使用,若遇到任何使用问题,随时欢迎私信反馈与沟通,博主会第一时间回复。 2、项目适用于计算机相关专业(如计科、信息安全、数据科学、人工智能、通信、物联网、自动化、电子信息等)的在校学生、专业教师,或企业员工,小白入门等都适用。 3、该项目不仅具有很高的学习借鉴价值,对于初学者来说,也是入门进阶的绝佳选择;当然也可以直接用于 毕设、课设、期末大作业或项目初期立项演示等。 3、开放创新:如果您有一定基础,且热爱探索钻研,可以在此代码基础上二次开发,进行修改、扩展,创造出属于自己的独特应用。 欢迎下载使用优质资源!欢迎借鉴使用,并欢迎学习交流,共同探索编程的无穷魅力! 基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip 基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip 基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值