碰巧发现近来感兴趣的几个点都有一家大公司几年前的身影

大厂的布局总是超前一般人。至少数年。可能因为大厂必须能够引领潮流,所以必须做一些超前的工作。有一些无法变成潮流的工作,默默消失在网络宇宙中了,但变成潮流的还能被再发掘一下。

字帖制作

前几篇博客,偶然涉及到了字帖制作的时候,因为前端代码实现涉及到了汉字的笔画、笔顺拆解,
在这里插入图片描述

借鉴到一些开源项目,想进一步发掘其原理和实现的时候,用古老的不带人工智能大语言模型技术的搜索引擎技术搜索了一下网上突然发现:

稀土掘金社区 2021年就有技术方面的心得以及产品。而且是基于“人工智能”的
在这里插入图片描述

字节的产品甚至用于了一种智能的优视灯(我2005年听说供职的外企内部员工优视灯售价是500元以上的时候还惊讶:怎么这么贵不就是一盏灯吗),可以自动答题辅导作业的,感觉就是优视灯外加一个豆包或豆包爱学app

音乐扒谱

再翻自己的博客,还发现,最近一激动还让大语言模型搞了钢琴模拟的前端代码工具,效果非常不错;但乐谱资源非常有限,因为播放器自动形成了一种JSON乐谱的标准,对格式有比较古怪的要求,其它地方没有过。这需要网络搜集从mp4\mp3等钢琴曲里面想提取乐谱出来,结果发现应该遵循这样的流程:

1、先获取可靠的音频,比如mp3格式;
2、然后把mp3转换为midi格式(这一步涉及短时傅里叶变换和消噪)
3、再将无损压缩的midi转换到JSON乐谱。

其中有难度的是第二步。我曾经尝试过其它直接Mp3转midi的,结果噪声非常嘈杂,我不理解,为啥mp3听起来好好的,转了midi就突然多了噪声了。

从前端代码简化的角度,一个自然形成的事实:midi 到json乐谱纯粹是因为播放器的原因,直接播放midi也是可以的,但比较难以实现不依赖其它安装的软件直接在线实现良好的播放效果,而转JSON文本格式乐谱能大大降低这个要求。

解决问题的过程中,然后又看到!Github上开源于2020年左右的piano transcription ,请注意这是哪家公司而不是某个个人! 而且相关工作又是基于人工智能算法的!
在这里插入图片描述
这个还被人打包了1.5G左右,可以在windows , linux, mac os上直接使用,效率很高。

当然,同期稍后的,还有另一份老外的工作也不错附带的,用transformer同时获取多种乐器的:

用 MT3:多任务多音轨音乐转录 这个AI模型就可以精确地将MP3转换为MIDI,还支持多乐器
以下是由Bing总结关于的MT3的论文:
您给出的论文是关于一种名为 MT3 的多任务多轨音乐转录的模型,它可以从原始音频中推断出音符,并将不同的乐器分开转录。这是一项非常有挑战性的任务,因为音频中可能包含多种声音和噪音,而且不同的乐器可能有不同的音色和音高。论文中提出了一种基于 Transformer 的序列到序列模型,它可以同时处理多个转录任务,并利用人类反馈进行强化学习,以提高模型的表现力和准确性。论文中还展示了该模型在多个数据集上的效果,包括钢琴、吉他、小提琴等乐器。
以下是MT3模型的一个使用示例,您可以试试(转换时长取决于你上传的音频时长):
https://huggingface.co/spaces/Hmjz100/MT3
(如果上传音频并点击提交之后过一会出现错误提示里有Timeout之类的是网络问题,刷新一下再重新上传提交就好了)
在这里插入图片描述

对于大多数MP3转MIDI在线工具而言,它们都使用一种叫做“傅里叶转换”的方法来把MP3转化为MIDI。
这样的转换算法势必导致其杂音较多,质量较差。
因此,更推荐您选择基于人工智能技术的MT3将音频转换为MIDI。使用完全不同算法的它会显著提升MIDI质量。(但目前识别率较低,生成的MIDI仍然质量较差)

对于纯钢琴音频而言,您也可以选择更优秀的PianoTrans进行转换。它的转换识别率较高且生成的MIDI听感很棒,值得一用。(但请注意:PianoTrans只能转换纯钢琴音频)

MP3和MIDI是两种不同的音频格式,其中MP3是一种有损压缩格式,而MIDI则是一种无损格式。由于它们的编码方式和数据结构不同,因此将MP3转换为MIDI可能会导致一些杂音和失真。这是因为MIDI只能转换音符和音高等信息,而不能转换音色和音量等信息。
如果您想将MP3转换为MIDI并且避免杂音,您可以尝试使用一些专业的音频编辑软件,例如Melodyne或AmazingMIDI。这些软件可以通过分析音频文件中的音符和音高来生成MIDI文件,并且可以根据需要进行一些调整来减少杂音
但请注意,即使使用专业软件进行转换,也无法完全避免杂音和失真。因此,如果您需要高质量的MIDI文件,最好使用原始的MIDI文件或者使用专业的MIDI音源进行创作。

发现自己小学语数外基础不好的时候

仔细深究,就发现自己也在犯“鸿鹄之志”类似读错音的错误。时有时无。之所以不觉得严重,是因为自己没有机会到公开场合把这错误放大出来广而告之。每个人或多或少都可能存在这样的问题,而避免这些因为小时候所受教育局限导致的谬种流传的办法是什么?

豆包、豆包爱学!

这些我就不介绍了。用了之后感觉不错。

当然,没想到其它大厂也在发力:夸克、钉钉,也都开始接上了大语言模型了。

真是百花齐放、百家争鸣啊

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值