An 8Bit 4GS/s 120 mW CMOS ADC
作者:Hegong Wei, Peng Zhang, Bibhu Datta Sahoo and Behzad Razavi
机构:Electrical Engineering Department, University of California, USA
期刊:IEEE JOURNAL OF SOLID-STATE CIRCUITS(JSSC)
时间:2014
摘要
时间交错ADC采用四个流水线时间交错通道,以及新的时序失配检测算法和高分辨率可变延迟线。数字背景校准技术抑制了通道间时序不匹配,在65nm CMOS工艺中实现了44.4dB的SNDR和219 fJ/转换步长的品质因数。
关键词
模数转换、交错、流水线模数转换器(ADC)、时间误差检测和校正、时序校准、可变延迟线
文章目录
一. 介绍
对于给定的分辨率,ADC的功耗随着速度的增加而线性上升,直到某个点,然后开始以越来越高的速率上升。因此,对于较慢的设计,品质因数(FOM)保持相对恒定,对于较快的转换器,品质因数往往会下降。另一方面,通过时间交错,每个通道被给予更长的转换周期,从而返回到线性功率速度区域。例如,[1]–[3]使用交错来达到GHz的采样速率,分辨率为10至12位,但它们依赖于精心的布局来最小化通道间的不匹配。
本文介绍了一种8 bit 4 GS/s交错ADC,结合了一种新的时序失配校准技术。所提出的技术不需要数字乘法,因此适合于低功率、低复杂度的实现。还介绍了一种低抖动、高精度的定时校正方法。通过四个交错流水线通道,该ADC在65nm CMOS工艺中实现了219 fJ/转换周期的FOM。
第二节提供了这项工作的背景,处理交织问题和可容忍的不完善之处。第三节描述了建议的时序失配校准技术。第四节介绍了ADC的实现。第五节总结了实验结果。
二. 背景
A. 交错考虑
ADC架构通常会带来“时序开销”,这种开销只会随着功耗的增加而微弱地增加。例如,在流水线系统中,子ADC响应、DAC建立时间、时钟的非重叠时间以及时钟的上升和下降时间最终由工艺决定,即使功耗不重要,也会给转换周期设置下限。例如,在[6]中描述的用于每个通道的1 GHz ADC设计在65 nm技术中表现出以下值:180 ps的子ADC响应、45 ps的DAC时间常数、50 ps的非重叠时间和20 ps的时钟跃迁。因此,由于DAC建立大约需要六个时间常数,即使每一级中的残余放大器承担线性功率-速度权衡,也很难适应远低于500 ps的转换时间。
这种情况自然需要交织,理想情况下交织的系数足够大,使得弱可伸缩的时间开销仅占每个信道周期的一小部分。这样的选择将允许在线性功率-速度区域操作,从而提供最低的FOM。然而,有几个因素反对增加通道的数量:1)直接的面积惩罚;2)成比例更高的输入电容,这可能需要耗电的缓冲器;以及3)由于模拟输入和时钟相位到通道的路由而导致的额外不匹配。因此,妥协是必要的。这项工作采用了四个通道。
交错带来通道间不匹配,要求校准技术。失调和增益不匹配的校正相当简单,但时序不匹配带来了更大的挑战,是本工作的关注点。
B. 可容忍的不完美
在开发时序不匹配的校准算法之前,我们必须确定系统校准后剩余的最大容许缺陷。具体来说,我们必须决定:1) hog失配是可接受的,以及2)如果在模拟域中执行,时序校正会产生多大的抖动。
为了解决第一点,我们计算由时序不匹配引起的信噪比(SNR)损失。可以看出,对于检测频率为
f
i
n
f_{in}
fin正弦输入的四个M-bit交错ADC,我们有
其中
Δ
T
\Delta T
ΔT表示第二、第三和第四通道相对于第一通道的均方根失配。图1描绘了如果
M
=
8
M=8
M=8和
f
i
n
=
2
G
H
z
f_{in}=2GHz
fin=2GHz时,对不同SNR损失最大容许值
Δ
T
\Delta T
ΔT。我们观察到1 dB的损失表示为
Δ
T
<
180
f
s
\Delta T <180 fs
ΔT<180fs。实际上,我们的目标是更小的残余失配,因为时钟抖动和ADC电子噪声等其他缺陷也需要在(1)的分母中有自己的预算。
对于第二点,即抖动引起的信噪比(SNR)损失,我们还写道
其中
σ
t
\sigma_{t}
σt为均方根抖动。在这种情况下,如果
M
=
8
M=8
M=8和
f
i
n
=
2
G
H
z
f_{in}=2GHz
fin=2GHz,1 dB的损失表示
σ
t
<
130
f
s
\sigma_{t}<130 fs
σt<130fs。出于与上述相同的原因,校正电路产生的抖动必须远低于该值。
三. 建议的时间-失配校准
针对交错式ADC,已经提出了许多时序失配技术。其中,工作[9]和[16]需要额外的通道进行校准,工作[19]的输入带宽有限,工作[5],[9]–[11]需要数字乘法器,工作[7]和[13]采用长FIR滤波器。
与其他类型的错误一样,时序不匹配可以通过执行两个功能来消除,即检测和校正,前者更适合数字领域。对于后者,我们可以选择:1)数字域,因此在输出数据路径中有一个足够长的高速FIR滤波器[7],这可能会消耗高功率;或者2)模拟域,并且因此使用会增加抖动的可变延迟线(VDL)。在这项工作中,检测和校正分别在数字和模拟域中实现,并在后台运行。
A. 时序不匹配检测
所提出的检测方法仅包含寄存器和数字加法器。我们首先描述两个交错通道的概念。假设,如图2(a)所示,通道1在
t
=
t
1
t=t_1
t=t1和
t
3
t_3
t3处对模拟输入
x
(
t
)
x(t)
x(t)进行采样,通道2在
t
=
t
2
t=t_2
t=t2处,其
t
2
t_2
t2相对于理想值的偏移为
Δ
T
\Delta T
ΔT。这意味着样本
x
1
x_1
x1和
x
2
x_2
x2之间的时间差比
x
2
x_2
x2和
x
3
x_3
x3之间的时间差多(或少)
2
Δ
T
2\Delta T
2ΔT秒。现在让我们形成两个差
x
2
−
x
1
x_2-x_1
x2−x1和
x
3
−
x
2
x_3-x_2
x3−x2,并直观地注意到,如果
Δ
T
\Delta T
ΔT为零,则它们的平均值会相等。换句话说,我们猜测
∣
x
2
−
x
1
∣
−
∣
x
3
−
x
2
∣
|x_2-x_1|-|x_3-x_2|
∣x2−x1∣−∣x3−x2∣的平均值与
Δ
T
\Delta T
ΔT成正比(绝对值是必要的,以确保连续样本不会相互抵消)。很难直接证明这个猜想,但是如果我们用平方函数来近似绝对值运算,我们就可以发展一些见解。
我们的目标是证明
(
x
2
−
x
1
)
2
(x_2-x_1)^2
(x2−x1)2和
(
x
3
−
x
2
)
2
(x_3-x_2)^2
(x3−x2)2之间的平均差值与
Δ
T
\Delta T
ΔT成比例。我们把
(
x
2
−
x
1
)
2
(x_2-x_1)^2
(x2−x1)2期望写成
其中
T
S
T_S
TS表示标称采样周期,
σ
2
\sigma^2
σ2是平均功率。因为(4)右边的期望实际上是
x
(
t
)
x(t)
x(t)的自相关,
R
(
τ
)
R(\tau)
R(τ)在
T
S
+
Δ
T
T_S+\Delta T
TS+ΔT处评估,我们有
同样,
(
x
3
−
x
2
)
2
(x_3-x_2)^2
(x3−x2)2的平均值等于
对于较小的
Δ
T
\Delta T
ΔT,
R
(
T
S
±
Δ
T
)
≈
R
(
T
S
)
±
Δ
T
d
R
/
d
τ
R(T_S±\Delta T)≈R(T_S)±\Delta TdR/d\tau
R(TS±ΔT)≈R(TS)±ΔTdR/dτ,得出平均值之间的差值为
因此,如果
d
R
/
d
τ
dR/d\tau
dR/dτ不是在
τ
=
T
S
\tau=T_S
τ=TS处消失,这种差异揭示了时序不匹配的幅度和符号。在附录一中提到,对于带宽受限于
f
S
/
2
f_S/2
fS/2的信号,自相关导数不能在
τ
=
T
S
\tau=T_S
τ=TS处为零。前面的分析表明,两个通道之间的时序失配可以通过执行四个操作来获得:1)延迟
x
1
x_1
x1和
x
2
x_2
x2
T
S
~T_S
TS秒;2)分别从
x
2
x_2
x2和
x
3
x_3
x3中减去结果;3)计算每个差值的绝对值;4)取这两个差值的平均值。图2(b)描述了高级实现。
我们现在将上述概念扩展到四个交错通道。为此,我们考虑图3(a)所示的波形,并将第一个通道的采样时间
t
1
t_1
t1和
t
5
t_5
t5视为理想时间。然后,我们必须计算通道2、3和4相对于通道1的时序失配。该计算分两步进行:1)检测并校正通道3和通道1之间的失配,使第3个通道理想,以及2)检测并消除另外两个失配,同时依赖于校正的通道3。第一步评估
∣
x
3
−
x
1
∣
−
∣
x
5
−
x
3
∣
|x_3-x_1|-|x_5-x_3|
∣x3−x1∣−∣x5−x3∣,第二步评估
∣
x
2
−
x
1
∣
−
∣
x
3
−
x
2
∣
|x_2-x_1|-|x_3-x_2|
∣x2−x1∣−∣x3−x2∣和
∣
x
4
−
x
3
∣
−
∣
x
5
−
x
4
∣
|x_4-x_3|-|x_5-x_4|
∣x4−x3∣−∣x5−x4∣。如图3(b)所示,该实现产生三个误差,即
e
2
,
1
,
e
3
,
1
,
e
4
,
1
e_{2,1},e_{3,1},e_{4,1}
e2,1,e3,1,e4,1。(如下所述,最初
e
3
,
1
e_{3,1}
e3,1返回到校正电路,以消除通道1和3之间的失配,同时
e
2
,
1
e_{2,1}
e2,1和
e
4
,
1
e_{4,1}
e4,1保持空闲。)
总之,所提出的检测算法工作在数字域,只需要加法器和寄存器,在模拟域不需要冗余,并且提供低成本、低功耗的背景校准(第四节)。
B. 仿真结果
失配检测技术可以通过不同的模拟输入进行验证。作为示例,图4示出了正弦和随机带限输入的通道2和1之间的时序失配的函数
e
2
,
1
e_{2,1}
e2,1。我们观察到误差单调变化,并在
Δ
T
=
0
\Delta T=0
ΔT=0处过零点。
为了确保校准环路的收敛性,我们构建了一个由四个失配采样通道、图3(b)的失配检测器和用于时钟相位调整的VDLs组成的MATLAB行为模型。然后,我们应用一个多音或随机输入,并检查校准前后作为时间和总输出频谱函数的VDLs控制。图5
(
a
)
(a)
(a)示出了对于三音输入,其中一个VDL控制的时间行为,而图5
(
b
)
(b)
(b)和
(
c
)
(c)
(c)示出了相应的频谱。每个通道的采样率为625 MHz,每个周期收集16000个点。我们观察到,环路在大约15个周期内稳定,杂散降至底噪以下。图6用带宽限制在100MHz的随机输入重复模拟,以便清楚地说明失配的影响。时序失配的影响表现为频谱中的几个局部峰值,在校准后消失。
同样令人感兴趣的是存在时钟抖动时失配校准算法的性能。我们认识到时钟抖动经历低通整形,随后在延迟调整中表现出来。如上所述,失配是在16000个点上测量的,从而平均出在该时间间隔内变化足够快的抖动分量。采样速率为4 GHz时,这种平均大致相当于对抖动应用转折频率为
1
/
(
400
μ
)
=
250
k
H
z
1/(400μ)=250 kHz
1/(400μ)=250kHz的低通滤波器。由于产生1 GHz时钟的锁相环的带宽通常要大得多,因此该带宽中的抖动能量可以忽略不计。
C. 错误检测的考虑
在某些输入的情况下,时序失配校准技术可能容易出现误检测和/或偏差。例如,[7]中描述的检测方法响应 f S / 4 f_S/4 fS/4和 3 f S / 4 3f_S/4 3fS/4处的两个输入音产生不正确的直流值,从而禁止收敛。因此,为提出的方法研究这些问题很重要。
图3所示的失配检测方案在
f
i
n
=
f
S
/
2
f_{in}=f_S/2
fin=fS/2处具有“奇异性”,即如果在
f
S
/
2
f_S/2
fS/2处输入仅包含一个音调,它产生零误差。这可以通过注意到所提出的技术需要至少四个不相等的连续样本来提供测量
Δ
T
\Delta T
ΔT,但是,如图(7)所示,
f
i
n
=
f
S
/
2
f_{in}=f_S/2
fin=fS/2情况下只产生两个这样的样本来解释。
虽然在
f
S
/
2
f_S/2
fS/2处单个音调输入的零误差意味着校准环路失败,但这也意味着如果输入包含额外的频率分量,则环路会收敛。
例如,我们推测,这样的音调和带限信号会产生有意义的输出误差。这种情况更为现实,因为ADC通常数字化随机信号,同时也可能在
f
S
/
2
f_S/2
fS/2处检测到一些泄漏。图8重复图6中两种情况的曲线,即在
f
S
/
2
f_S/2
fS/2处一个单音和这个单音加一个随机带限信号。我们观察到前者不收敛,但后者收敛。这是所提出的检测技术相对于基于乘法的算法的另一个重要优点。
四. ADC实现
A. ADC架构
如图9所示,65nm CMOS ADC原型由四个流水线通道、一个相位产生器和一个相位校正电路组成。该流水线基于[6]中的设计,包括一个4 bits第一级、7个1.5 bits级和一个2 bits最后级。多路复用和下采样输出发送到片外,用于三种不同的校准任务:1)每通道校准,以消除因电容失配和残余放大器有限增益而导致的流水线级增益误差;2)通道间偏移和增益失配校正;以及3)如图3(b)中提出的时序失配检测。这种检测产生的结果通过串行总线传回芯片,并驱动相位校正电路,以抑制时序不匹配。
交错式系统能够数字化的最大模拟输入频率最终受到每个通道中前端采样电路的限制。基于[6]中的ADC,该设计将每通道1 GHz时钟周期的25%分配给采样和75%给转换。因此,采样器必须在250 ps内采集2 GHz满量程输入信号,并具有足够的线性度和可接受的衰减。幸运的是,自举在65 nm CMOS技术中提供了这样的性能。图10示出了在每个通道中使用的自举电路(采用自[20]),并且图11绘出了对于1 GHz的采样率,采样器的仿真总谐波失真(THD)和电压增益作为输入频率的函数。我们观察到频率高达2 GHz的性能超过10比特。
B. 相位校正和检测
交错式系统需要四个1 GHz时钟相位,每个相位的占空比为25%,因此每个通道的采样为250 ps,转换为750 ps。如图12(a)所示,一个4 GHz的输入时钟被二分频两次,并且1 GHz的相位被逻辑组合以产生具有25%的占空比输出
ϕ
0
−
ϕ
270
\phi_0-\phi_{270}
ϕ0−ϕ270。图12(b)示出了每个
÷
2
÷2
÷2电路中使用的锁存器拓扑,图12
(
c
)
(c)
(c)示出了25%占空比逻辑。整个相位发生器在全速下消耗17mW。
上述链大致相当于11个门的级联,积累了显著的抖动。根据仿真,
ϕ
0
\phi_0
ϕ0的下降沿显示总均方根抖动为53 fs。如第一节所述,为了将信噪比损失降至最低,抖动越小越好。此外,图12(a)中的第二个
÷
2
÷2
÷2电路和占空比逻辑造成显著的相位失配。这两种影响都可以通过使用重定时来抑制[图12(d)]。门控
ϕ
0
−
ϕ
270
\phi_0-\phi_{270}
ϕ0−ϕ270,2 GHz时钟的下降沿现在定义了
ϕ
0
′
−
ϕ
270
′
\phi_0'-\phi_{270}'
ϕ0′−ϕ270′产生的采样点,消除了上述抖动和失配成分。在重定时相位观察到的抖动约为31 fs。
相位校正电路采用模拟VDLs,并出现在所有四个时钟路径中,以避免系统偏斜。该电路必须提供:1)足够宽的延迟调谐范围,以适应最大预期失配;2)足够细的步长, Δ T m i n \Delta T_{min} ΔTmin,以最小化信噪比损失。从基层计划考虑,我们选择 Δ T m a x = 3 p s \Delta T_{max}=3ps ΔTmax=3ps,从第二部分,我们的目标是 Δ T m i n = 30 f s \Delta T_{min}=30fs ΔTmin=30fs,达到约7位的分辨率。
除了
Δ
T
m
a
x
\Delta T_{max}
ΔTmax和
Δ
T
m
i
n
\Delta T_{min}
ΔTmin,还有两个因素控制着VDL的设计。首先,抖动必须保持在第二节计算的130 fs以下,要求有一个短延迟线。第二,延迟控制必须有点线性,以避免急剧变化,特别是在特征的末端。举例来说,随着
V
c
o
n
t
V_{cont}
Vcont从
V
D
D
V_{DD}
VDD下降,图13(a)中所示的饥饿反相器在其延迟中表现出缓慢上升,但在
V
c
o
n
t
V_{cont}
Vcont接近
M
3
(
≈
300
m
V
)
M_3(≈300mV)
M3(≈300mV)的阈值电压时快速变化。由于工艺、温度和电源的变化,很难获得很宽的范围,同时避免非常非线性的区域。
为了线性化饥饿反相器的特性并获得良好的分辨率,我们引入了一个晶体管,该晶体管始终与另一个导通电阻受控的器件并联。如图13(b)所示,该电路提供的最大延迟由
(
W
/
L
)
4
(W/L)_4
(W/L)4(当
M
3
M_3
M3关闭时)限定。图13
(
c
)
(c)
(c)描绘了原始和修改的反相器的仿真延迟作为控制电压的函数。然而,新电路的延迟范围达不到3 ps的目标。我们现在将这一思想扩展到如图12(d)所示的重定时与非门,其中1-bit粗略控制将先前的特性向上或向下移动2 ps。精细延迟调整由
M
3
M_3
M3实现,其栅极电压可在64步内从
V
1
≈
V
T
H
V_1≈V_{TH}
V1≈VTH变化到
V
2
V_2
V2。有了
W
4
=
2.25
W
3
W_4=2.25W_3
W4=2.25W3和
L
4
=
L
3
L_4=L_3
L4=L3,这个方案提供了一个30 fs的
Δ
T
m
i
n
\Delta T_{min}
ΔTmin。图14绘出了不同工艺角的仿真延迟作为控制代码的函数,显示了大约0.5 ps的变化。(代码63处的不连续性是由粗略部分和精细部分之间的重叠造成的,这是避免延迟特性中的“死区”所必需的预防措施。由于搜索从粗糙位开始,这种非单调不妨碍收敛。)仿真还显示,当温度在0℃至80℃之间变化时,总延迟变化为0.7 ps且当电源变化±50mV时,有150 fs的变化。
可以观察校准环路对延迟线电源变化的响应。由于时钟路径之间的不匹配随电源略有变化,系统必须适应新的代码。图15作为示例绘制了在校准周期6,电源步进100mV时,第二延迟线的代码。在这个瞬态仿真中,后端为每个周期收集16000个点,并相应地调整VDL以便最小化
e
2
,
1
e_{2,1}
e2,1。
C. 逻辑复杂性和功耗
虽然在Matlab中实现了片外校准,但校准逻辑也在65 nm技术中进行了研究,以估计其复杂度和功耗。图3的检测方案需要4个寄存器(延迟元件)、9个减法器、6个绝对值运算(绝对值通过反转符号位来计算。)和3个求平均值模块,所有均为12 bits的字长,所有这些功能转换成大约800个门。为了估计功耗,我们假设平均扇出为3,因此每个栅极的负载电容约为7.5 fF。如果所有800个门在1GHz切换,逻辑从1.2 V电源吸取8.6mW。如[5]中所建议的,检测不需要一直处于活动状态,可以在跟踪温度变化的同时以短时间、不频繁的突发进行。这样的时序会进一步降低功率。
五. 实验结果
四通道ADC,包括相位生成和校正电路,采用TSMC 65 nm 数字CMOS技术制造。图16所示为芯片的照片,其有效面积为900 μm×1500 μm。四个ADC堆叠在一起,模拟输入和时钟从中间左侧进入,并传输到四个通道。
为了便于测试和表征,通道的输出在芯片上以625的系数进行多路复用和下采样。ADC直接安装在印刷电路板上,用1.2 V电源进行测试。所有测量结果均以4 GHz的采样率报告。
图17中绘出了每通道校准前后的总微分非线性(DNL)和积分非线性(INL)(4-GHz采样速率下的INL误差主要是由流水线第一阶段中参考电压的不完全建立引起的。)。峰值DNL下降到-0.75 LSB且峰值INL到-1.5 LSB。图18(a)绘出了驱动通道2–4中的VDLs的测量校准代码随时间的变化。该测试采用2 GHz的满量程正弦波进行。我们观察到首先通道3收敛,然后通道2和4收敛。从这些代码中,我们估计以下时序不匹配为例:
Δ
T
1
,
2
=
3
p
s
\Delta T_{1,2}=3ps
ΔT1,2=3ps,
Δ
T
1
,
3
=
0
p
s
\Delta T_{1,3}=0ps
ΔT1,3=0ps,
Δ
T
1
,
4
=
1.28
p
s
\Delta T_{1,4}=1.28ps
ΔT1,4=1.28ps。
图19显示了在校准之前和之后具有1.89-GHz输入的测量输出谱。时序不匹配导致的杂散降至约-60dB,SNDR从38.4dB升至44.4dB。图20绘出了作为模拟输入频率的函数的测量SNDR,表明在奈奎斯特速率附近有2 dB的退化。图18(b)描绘了在该收敛期间测量的SNDR,揭示了由于未校正的时序失配而在开始时的显著退化。系统允许在后台为每个输入频率校准时序不匹配。在随机输入的情况下,校准代码将稳定在一个中间值,以便将如图3(b)中的
e
2
,
1
e_{2,1}
e2,1,
e
3
,
1
e_{3,1}
e3,1,
e
4
,
1
e_{4,1}
e4,1误差最小化。
ADC的功耗为120mW:模拟部分为57mW,数字部分为46mW,流水线通道的第一个子ADC使用的四个参考阶梯为16mW。表1将我们的原型性能与最近的SNDR范围为44至49dB的GHz ADC进行了比较。
六. 结论
本文提出了一种高效的数字背景时序校准算法和高分辨率延迟调整电路。所提出的基于差值的方法避免了冗余或数字乘法器,为不同类型的输入信号提供了精确的校准,并覆盖了较宽的频带。使用这些概念,一个4 GS/s时间交错ADC在奈奎斯特速率下显示出44.4dB的SNDR和219 fJ/转换步长的FOM。
附录
在这里,我们证明,如果一个信号的带宽被限制为 f S / 2 f_S/2 fS/2,那么它的自相关导数在 τ = T S ( = 1 / f S ) \tau=T_S(=1/f_S) τ=TS(=1/fS)处非零。
可以看出自相关的导数由下式给出
其中
S
x
(
f
)
S_x(f)
Sx(f)表示信号频谱。我们写
e
x
p
(
j
2
π
f
τ
)
=
c
o
s
(
2
π
f
τ
)
+
j
s
i
n
(
2
π
f
τ
)
exp(j2\pi f\tau)=cos(2\pi f\tau)+jsin(2\pi f\tau)
exp(j2πfτ)=cos(2πfτ)+jsin(2πfτ)并替换
τ
\tau
τ为
T
S
T_S
TS。因此
第一个积分等于零,因为
(
2
π
f
)
S
x
(
f
)
c
o
s
(
2
π
f
T
S
)
(2\pi f)S_x(f)cos(2\pi fT_S)
(2πf)Sx(f)cos(2πfTS)是奇函数。为了研究第二个积分,我们从图21(a)中认识到
(
2
π
f
)
S
x
(
f
)
(2\pi f)S_x(f)
(2πf)Sx(f)是一个奇数函数,带宽限制为
±
f
S
/
2
±f_S/2
±fS/2。我们现在将这个函数乘以
s
i
n
(
2
π
f
T
S
)
sin(2\pi fT_S)
sin(2πfTS),并对结果进行积分。如图21(b)所示,前者的奇对称性和后者的偶对称性保证了乘积具有有限的正面积,因此
d
R
/
d
τ
(
τ
=
T
S
)
≠
0
dR/d\tau(\tau=T_S)≠0
dR/dτ(τ=TS)=0。