街机模拟器工作原理

最新推荐文章于 2021-12-12 20:41:48 发布

cityvulture

最新推荐文章于 2021-12-12 20:41:48 发布

阅读量1w

点赞数 1

分类专栏： IT技术文章标签：工作游戏网络虚拟机编程 x86

IT技术专栏收录该内容

19 篇文章

订阅专栏

转自＝easyrock（2路转4路）＝的原创，很少看见这么深入底层的与性机制详解，牛人啊，膜拜ing进而收藏之！

街机模拟器工作原理这几天学习了一下finalburn的源代码，有一些心得，惊喜之余，整理出来与大家分享。我们常说的芯片，通常都是接受一定的输入，完成特定的计算，并产生结果。输入通常来自相连的外设，输出也传递到外设。例如，最简单的计算器，内部也有一个芯片，我们在计算器的键盘上输入3+5=，就转化成了计算器芯片的输入参数，并启动内部的计算逻辑，算出结果8，在屏幕上显示出这个结果。作为cpu的计算器芯片，在这个过程中已经与两个外部设备进行了交互：键盘和显示屏。 cpu与外围设备交互，通常有特定的方法。像x86系列cpu，提供了io端口，中断，内存映射这几种方式。例如cpu与显卡的交互，通常会使用到以上所有的方式：显卡的帧缓存通过内存映射，使cpu可以寻址到；显卡芯片的寄存器(显卡芯片也是一个cpu，也有寄存器)通过io端口进行读写，通过读写寄存器这种低级的编程方式，显卡开始各种工作(例如bitblt)，cpu也并行的进行其他计算工作，当显卡完成某个功能调用后，通过x86中断通知cpu所需的请求已经完成，进而cpu可以再请求显卡做下一步工作。通过中断，cpu和显卡处于异步的方式，cpu不必等待显卡完成绘图。几乎所有的芯片都是可编程的，也就是说，可以定制它们的工作方式。只是一些芯片提供了良好的编程接口。像x86系列，MC68000等这样的芯片，可以运行一段事先写好的程序，来完成某一特定的功能。而像早期的显卡芯片，只能通过读写寄存器来调用显卡的功能。街机模拟器，最核心的功能就是模拟那些街机用到的芯片。比如《街霸2》这个游戏，用到了MC68000做cpu，Z80做音频处理，还用到了一个yamaha的音频芯片，视频方面应该用到了一个芯片做输出。游戏的rom，包含音频、视频数据，和游戏代码。代码就是在MC68000上跑的，因此先说一下MC68000的模拟。 MC68000(m68k)的模拟器是用汇编写的，来自于MAME。从代码中可以看出，m68k有一组寄存器、接受中断输入、通过内存映射与外设交互。m68k模拟器的内存接口由客户端(使用该模拟器的代码，在这里就是街机模拟程序)提供，这样一来，客户端就可以接管m68k与外设的交互了。例如，用于音频处理的z80，寄存器组被映射到m68k的某一地址段上。m68k在运行过程中读写z80的寄存器，实际上回调街机模拟程序的相应代码，转发给了z80模拟器。通过这种方式，就可以模拟m68k与其他外设的交互了。 m68k模拟器用本机代码模拟m68k的指令集。每一条m68k指令用一段本机代码来模拟。对于一段m68k代码，结合ip(指令指针)找到对应的m68k指令，通过一个跳转表，跳到对应的那一段模拟代码执行。每一条m68k指令模拟出来的执行周期是原指令周期的数倍到数十倍。因为本机cpu的速度通常是m68k速度的数百倍，所以这样的模拟不会有问题。那么本机cpu(host)与被模拟的cpu(m68k)是如何联系的呢？首先必须让模拟的m68k在正常的主频下运行。host用指定的频率(例如60Hz)来调用m68k模拟器，指定让m68k运行多少个时钟周期(cycle)。比如想让m68k跑在8MHz，那么每次要让m68k跑8000000/60=133333个cycle。在m68k运行的过程中，自然会通过内存接口与外设交互，这样就让其他外设的模拟器开始相应的模拟工作。视频部分没有用到模拟器，我推测是使用的帧缓存(framebuffer)。因为2D游戏的画面都是通过贴图(tile)完成的，不需要绘制。为了达到60Hz的刷新率，模拟程序每次在m68k跑完时钟周期后，读取这个帧缓存，转化成符合当前屏幕格式的位图，blt到显卡。这个过程还需要进一步的学习。我的最终目的是想移植finalburn到linux上。国外早就有了这样一个项目 http://fblinux.emuunlim.com，但是为了学习，一切都要自己去尝试。 finalburn的源代码直接在www.finalburn.com下载。逻辑上分为几块：底层的模拟库burn，上层的ui库burner。其中burn用到了更底层的a68k和doze两个模块，他们分别是MC68000模拟器和Z80模拟器。街机游戏包含两块板卡：主机板和游戏板。主机板上有cpu，dsp等处理器，游戏板上存放的是游戏rom和加密用的电路。我们玩模拟器，需要解密后的游戏rom，相当于我们手头上有了游戏板，在模拟器中载入游戏rom，就可以开始游戏。所以模拟器还需要模拟主机板( 基板 )，而不是光是单纯的MC68000cpu和Z80cpu。基板有点像电脑主板，上面不光有cpu，还有很多外设，像声卡、网卡等。比如《街霸2》游戏使用的cps1基板(Capcom Play System-1)，主控cpu是用的MC68000，音效cpu是用的Z80。为了能控制Z80，肯定是要把Z80的寄存器空间映射到MC68000的地址空间上来。MC68000读写某一段地址的内存，到底是要读写数据，还是访问某个外设的寄存器？不同的基板，各有特定的外设，和映射方式。所以正确的模拟出这些游戏机板，是模拟器的第二个重要工作（第一个当然是模拟各个独立的cpu）。因此，模拟器的底层模块，分为模拟cpu和模拟基板两类。显然模拟cpu的模块是高度可复用的，比如mc68000的模拟模块，可以用于模拟cps1，cps2和mvs(neogeo)基板，因为他们都用到MC68000cpu。针对新出现的基板，如果用到的某个cpu已经有了模拟的模块，同样可以直接使用。MAME就是不断的模拟各种cpu和基板，以支持更多的游戏。对于模拟的每一个游戏，也需要一个单独的模块。提供一些必要的信息和特定的处理。比如这个游戏有哪些rom，哪些用于视频，哪些用于音频，哪些是代码。有些游戏也需要特定的前期和后期处理。比如1944这个纵版游戏，在完成每一帧画面的组织后，要翻转90度。这些都是在特定游戏的模块中完成的。 burn库模拟了cps1、cps2和system16基板。这三款基板都是用的MC68000cpu。加入更多的cpu模块，基版模块和游戏模块，就可以模拟更多的游戏了。对于2D游戏的视频部分，因为不像3D游戏画面那样需要动态计算，2D游戏的所有图像数据都是事先画好的。通常分为几层，比如角色层、背景层等。每一帧的绘制都是按Z序来绘制这几层的。用“贴图”来形容这个过程比用“绘制”更贴切。因为每一层都被分成了NxM个方块，按照索引保存在rom的视频数据区。对于每一帧，计算出出现在屏幕上的那些方块，按照索引，就能找到每一个方块对应的图像。把这些方块贴到framebuffer中，就形成了生动的图像。

目前流行的模拟器都有Save/Load Game的功能，和录像功能，这些是如何实现的呢？先谈谈游戏中随机事件的产生。比如玩《街霸2》，每次我们选同一个人物，第一关的对手也不一定是相同的。又比如，第一关对手即使相同，电脑每次的进攻策略也不一样。这些都是相当随机的。可以想象成游戏使用了一个类似于rand()的函数，根据函数产生的随机值作出随机的反应。当然电脑对手的动作不是完全依赖于这个随机值，肯定还依赖于游戏者的输入动作，比如游戏者跳重腿，电脑对手通常会发出对应的招式来反击，或者挡，而不是随机的乱动。当然决定是反击还是挡，这本身也存在一个随机的选择。正是因为游戏中处处充满的不可预测性，才使得游戏更具有娱乐性。然而，事实上，真正的随机是不存在的。这些随机都是根据一个种子值，经过各种不相关的运算产生的伪随机值，计算出的值又作为计算下一个“随机”值的种子。也就是，只要初始给的那个种子相同，每次计算出的随机序列都是一样的。这样随机就变成可预见和可再现的了。如果让初始种子与时间相关，那么只有相同的时间计算出的随机序列才相同，这样就大大降低了随机重复的可能性。可以推测，游戏中也用到了时间值来做为随机数的种子。这个时间值要么来自于一个单独的计时器，要么就来自于cpu——不管来自于哪里，每次复位后，这些值都变成初始值了。打开两个模拟器，载入相同的游戏，开始运行。这两个游戏运行的画面肯定是完全相同的。当然这还不足以说明问题。但是你投币，开始游戏，即使选择相同的人物，相同的剧情，游戏的发展也可能完全不同。这个不同来自于另一种类型的随机——用户输入。因为用户的输入序列不太可能做到每次都相同，即使按键的序列相同，按键时间几乎不可能是一样的（这个时间显然是相对于游戏复位的时间）。如果能够做到在每次复位后，输入的按键和按键的时间都相同，那么游戏就变成了重复的视频和音频序列，也就是——录像回放。模拟器要做到精确到帧的输入是很容易的，所以录像功能的实现，就是记录游戏者每次输入的精确帧号（或时间）和按键。播放录像时，首先复位，然后在适当的帧（或时间）上输入适当的按键。就这么简单了。这个功能可以进一步发展到网络对战的实现。首先，连网的多个模拟器需要复位，然后每一帧都需要同步，这个同步就包括很重要的游戏者输入信息。首先，帧的同步确保了游戏时间的一致，也就确保产生一致的随机序列。再加上用户输入的同步，另一个随机源也达到一致了，所以每一个模拟器上的运行效果就都是相同的“随机”情况了。当然，网络对战实现起来远比这里提到的复杂，需要容忍网络延时，和处理网络数据的高效率传送，同步本身也是一个相当伤脑筋的事情。游戏的Save/Load功能相对简单，Save只需记录当前游戏的运行数据，以便下次Load时恢复。需要记录的数据首先是内存。把所有的RAM保存下来，这样包括那些映射的外设的寄存器也一并存了，恢复时外设也恢复到了相应的状态。最后还应该保存cpu的寄存器状态。但是我在finalburn的Load/Save代码里没有找到保存68000cpu寄存器的相应代码。推测：开始运行后，寄存器就处于稳定的状态，或者处于一个简单的循环——读取RAM和ROM数据，分派到相应的子程序进行处理。所以只需要把RAM数据替换，游戏就来到了保存时的状态。这个推测不太合理......

2D街机游戏都是以恒定的帧率运行的。比如《街霸2》这款格斗游戏，帧率为60。显然游戏运行过程中，CPU并不是一直处于忙碌的状态，而是等待一个60Hz的时钟，每次到了时间点上，才运行一帧。这里的运行一帧，包括检测玩家输入，运行游戏逻辑，产生一帧图像，和产生时间长度为1/60秒的音频数据。这个60Hz的时钟，来自一个外部设备的中断。通常这个外部设备就是街机的显示器。该显示器刷新率为60Hz，每秒产生60次VBlank信号，中断到CPU，驱动游戏运行。模拟器的工作循环的伪代码类似于这样： while (1) { 休眠直到时间点(); 扫描输入(); 设置虚拟机VBlank中断(); 运行虚拟机n个周期(8000000/60); 播放音频采样(); 更新视频画面(); } 但是有几个问题需要考虑。首先，音频的播放比较麻烦。声卡以一定的速率，从一个缓冲区中循环读取PCM采样，然后播放。这个恒定的读取速率由采样率决定。比如，采样率为44100Hz，速率就是每秒44100个采样。反过来也决定了，声卡每读取44100个采样，时间就是1秒。1/60秒的时间，就是声卡读取44100/60=735个采样的时间。所以，“休眠直到时间点”这个过程，就是等待声卡读取完735个采样的时间，而不是系统时钟的1/60秒。同时使用两个时钟源的结果将是视频和音频不同步。一方面要以声卡作为时钟源，另一方面还要确保声卡的缓冲区总是有正确的数据可供读取。不能等到声卡播放完当前一帧的数据，才去准备下一帧数据。需要提前准备好即将播放的数据，也就是缓冲一定量的数据。但是缓冲的时间应该尽可能小，以保持模拟器的低延迟性。通过查询当前声卡读取缓冲区的位置，可以计算大概的时间，以确定是休眠等待还是运行下一帧。但是这个时间只能是大概的，而声卡的播放速度决定的时间是精确的。每运行一帧，把产生的音频数据写到缓冲区，这个过程重复的速度只有跟声卡读取数据的速度一模一样，才不会导致缓冲区溢出。速度不匹配，就需要控制了，如果产生数据的速度太快，就需要休眠一些时间，等待声卡播放到合适的位置，反之，则要快速运行几帧，准备好需要的音频数据，同时只更新最后一帧的视频画面。这种情况下，视频就丢帧了，但是几帧的丢失不会影响视频的流畅性。另外值得注意的是，即使视频的帧率因为丢帧而达不到60，虚拟机的运行还是要保持每秒运行60帧的，这样确保音频，输入和其他逻辑的正常运行。如果加入网络对战的支持，“扫描输入”这个过程，需要通过网络通信来得到对方的输入，并同步各方的运行。网络的延迟是不可预测的，所以在延迟较大的情况下，很难保持音频的流畅。如果通过缓冲数据来缓解这个问题，又将带来游戏的延迟。在这种限制下实现的最好效果，因该是不超过100ms的延迟，和偶尔的停顿。