方案一:
文件复制服务检测到副本集 "DOMAIN SYSTEM VOLUME (SYSVOL SHARE)" 正处于 JRNL_WRAP_ERROR。
事件类型: 错误
事件来源: NtFrs
事件种类: 无
事件 ID: 13568
日期: 2006-11-1
事件: 11:34:09
用户: N/A
计算机: SERVER
描述:
文件复制服务检测到副本集 "DOMAIN SYSTEM VOLUME (SYSVOL SHARE)" 正处于 JRNL_WRAP_ERROR。
副本集名称是 : "DOMAIN SYSTEM VOLUME (SYSVOL SHARE)"
副本根路径是 : "c:\windows\sysvol\domain"
副本根卷是 : "\\.\C:"
当尝试从 NTFS USN 日志读取的记录没有找到时 副本集达到 JRNL_WRAP_ERROR。下列原因之一 可能导致这一问题。
[1] 卷 "\\.\C:" 已经格式化。
[2] 卷 "\\.\C:" 上 NTFS USN 日志已经删除。
[3] 卷 "\\.\C:" 上 NTFS USN 日志已经截断。如果 Chkdsk 在日志结尾发现损坏的项目,可能会截断日志。
[4] 文件复制服务已经长时间没有在此计算机上运行。
[5] 文件复制服务无法与 "\\.\C:" 上磁盘 IO 活动保持相同速率。
设置 "Enable Journal Wrap Automatic Restore" 注册表参数为 1 将 导致下面的恢复步骤将被执行以自动从此错误状态中 恢复。
[1] 第一次轮询将在 5 分钟内执行,此计算机将 从副本集中删除。如果您不想等待 5 分钟,那么 运行 "net stop ntfrs" 然后运行 "net start ntfrs" 以重新启动文件复制服务。
[2] 在删除后的轮询中,此计算机会被重新添加到复制集中。 此重新添加将会为此复制集触发一个树的完全同步。
注意: 在恢复过程中副本树中的数据可能不可用。 如果此错误情况再次发生,您应当重置上述注册表 参数为 0 以阻止自动恢复导致数据意外的 不可用。
要更改此注册表参数,运行 regedit。
单击「开始」,运行并键入 regedit。
展开 HKEY_LOCAL_MACHINE。
单击键路径:
"System\CurrentControlSet\Services\NtFrs\Parameters"
双击此值名称
"Enable Journal Wrap Automatic Restore"
并更新值。
如果此值名称不存在,您可以使用编辑菜单项下的 “新建->DWORD 值”功能添加它。键入与上面的值完全一样的值。
有关更多信息,请参阅在 http://go.microsoft.com/fwlink/events.asp 的帮助和支持。
解决方法:
建议不要按照日志的提示进行操作,正确的操作应该是
出现这个问题的原因,是由于在硬件的损坏,导致服务器未正确处理NTFS USN 日志。它记录了NTFS卷上的更改的内容,而FRS依赖于USN 日志来确定需要被复制到FRS的副本集的内容。这个错误,可以通重新初始化USN 日志,使得FRS副本集的日志一致,请确认其它的服务器是否有包含13568事件,如果至少有一台是好的(第一种情况),则可以通过非权威还原来重新初始化。请根据以下步骤操作:
1. 切换到CMD模式,运行net stop ntfrs命令停止FRS。
2. 运行Regedit 启动注册表编辑器。
3. 定位到以下位置:
HKEY_LOCAL_MACHINE\System\CurrentControlSet\Services\NtFrs\Parameters\Backup/Restore\Process at Startup
4. 双击BurFlags,修改值为D2。
5. 在CMD模式,输入 net start ntfrs 命令启动FRS。
When the FRS service restarts, the following actions occur:
? The value for BurFlags registry key returns to 0.
? Files in the reinitialized FRS folders are moved to a Pre-existing folder.
? The FRS database is rebuilt.
? The member performs an initial join of the replica set from an upstream partner or from the computer that is specified in the Replica Set Parent registry key if a parent has been specified for SYSVOL replica sets.
? The reinitialized computer performs a full replication of the affected replica sets when the relevant replication schedule begins.
如果所有的服务器都记录了13568事件(第二种情况),则需执行授权还原,请根据以下步骤操作:
1. 把所有的服务器的FRS都停止。
2. 把其中一台服务器的BurFlags设置为D4,其它的步骤和执行非授权还原的操作一样,在完成授权还原后,检查FRS日志,看是否还有问题。
3. 在确定没有问题后,对其它的服务器执行非授权还原。
正常来说,这个操作不会导致DC崩溃,但为了确保安全,建议对DC和重要数据进行备份,以免出错。
如果是单域单DC状态的话(第三种情况)
执行授权还原,请根据以下步骤操作:
1. 切换到CMD模式,运行net stop ntfrs命令停止FRS。
2. 运行Regedit 启动注册表编辑器。
3. 定位到以下位置:
HKEY_LOCAL_MACHINE\System\CurrentControlSet\Services\NtFrs\Parameters\Backup/Restore\Process at Startup
4. 双击BurFlags,修改值为D4。
5. 在CMD模式,输入 net start ntfrs 命令启动FRS。
此文章转载自:http://hi.baidu.com/kong10111/blog/item/298f9f5c0d3a8a46fbf2c0c9.html
我的情况如下:两台域控制器,主域控制器上没有此错误,13568只出现在辅域控制器上,所以适用第一种情况,采用上文中所写的解决方法完全解决,域控制器之间文件复制正常。第二、三种情况暂时未验证。
方案二:
2012年7月9日,一个适合睡觉的阴雨天气。早晨刚睁开眼就接到领导的电话,客户两台Windows Server 2008 R2域控器出现故障,情况比较紧急,必须立即出发。刚出门,客户电话打进来,要求30分钟到现场。我的亲哥哥呀,这不要人命嘛!这里可是北京,阴雨天+周 一+早高峰。30分钟我肯定飞不过去呀。考虑到事件的严重性,客户只能是先开一个微软原厂的A级Case,先电话处理着。
到现场后,先 了解当前的情况:一个父域是abc.local;两个子域分别是it.abc.local和hr.abc.local。每个域中有二台DC。此次出现问题 的是it.abc.local域,此域中的两个DC名分别是dc01.it.abc.local和dc02.it.abc.local。另有两台成员服务 器server1.it.abc.local和server2.it.abc.local安装有故障转移群集,上面配置有客户应用。
症状是:1个小时前,群集应用出现故障,无法切换,处于失败状态。管理员登录到DC上进行排查,发现DC01输入正确的用户名密码无法登录,怀疑是AD数据库出现故障。
也就是说这里看到的是两个故障:群集上的应用故障和域的用户登录故障。经过分析,判断群集上的应用故障应该是由于域故障而起的,所以还是决定先解决域的用户登录故障。
DC01你怎么了?
关于DC02上域管理员账户无法登录的问题,开始怀疑是DC01这台机器上的数据库有问题,解决就是想重新启动验证一下,如果不行就进行AD的恢复还原,实在不行,还有DC02在,可以将DC01降级再升为DC,但这是下下策。
确认思路之后,开始按Power,强制关机。重新启动后,管理员竟然成功登录进去了,太诡异了。但随后打开DC02上的AD用户和计算机时发现如下图所示的故障:
在DC01上也无法打开AD用户和计算机管理界面,此时判断应该是DNS的问题,两台DC重新启动DNS服务后,故障依旧。 此时采用下面的方法解决:
1.将两台机器上的c:\windows\system32\config文件夹中的netlogon.dnb和netlogon.dns分别改名,如下图所示:
在此,我们将二个文件加上bak后缀,然后重新启动DNS服务。如下图所示:
重新启动后,会再次生成新的netlogon.dnb以及netlogon.dns文件,如下图所示:
此时,再打开两台DC的AD用户和计算机就可以很顺利的查看相关对象了。两台DC也可以正常的复制数据。群集上的应用也恢复正常了,似乎一切都平静了。但故事还没有结束。
DC02难道不是DC?
按理说两台DC都可以正常复制了,群集上的应用也恢复正常了,应该就没有问题了。但事实不 是!我们准备进行一下故障演练,当坏掉一台DC,应用是否还能正常。于是,果断的拔掉DC01的网线。但问题来了,群集应用立即转入失败。也就是说 DC02没有支撑起群集应用。我的天呀,这是怎么回事?难道是群集节点服务器没有找到DC,在两个节点上解析DC也一切正常。此时使用命令nltest /dsgetdc:it.abc.local /force。查询当前所识别出来的域控制器和其相应的 IP 地址等信息,显示结果如下:
这就奇怪了,明明DC02是在线的,怎么会获取DC名称失败呢?而且域名解析是正常的,如下图所示:
此时,我们又使用了nltest /dclist获取it.abc.local域中的所有DC信息,如下图所示:
前面的DC间复制,发现DC02似乎没有问题呀,这里怎么会找不取DC02呢,也就是说系统发现DC02压根就不是一台DC。这是怎么回事,为了不影响应用,重新插上DC01的网线。
分析过程如下:
在DC02上运行dcdiag /v命令,来进行AD服务器的诊断并保存到dcdiag.txt文件中,如下图所示:
此命令将对当前DC进行多项内容检查,包括avertising、DFSR、Sysvol、KCC、MachineAccount等。通过分析此文件, 发现dc02无法通过检查。于是确定抓包分析。在DC02上安装抓包工具,在节点服务器上运行nltest /dsgetdc:it.abc.local /force命令,我们来分析DNS的解析过程是否有问题,结果如下图所示:
在进行此步调试的时候,仍然需要将DC01处于脱机状态,客户端的DNS指向DC02并且清除DNS缓存。但我们从抓包所看DNS解析是没有问题。客户 端请求解析_ldap.tcp.default-first-site-name._sites.dc._msdcs.it.abc.local所对应的 SRV记录,DC02也为此返回了正确的地址。
接下来检查DC02上KDC和Netlogon的运行状态,使用的命令如下:sc query 服务,如下图所示:
这两个服务也算正常,但是当我们使用net share查看共享的时候,却看不到netlogon和sysol这两个共享文件夹,显示如下图所示:
圆满解决
下面的操作就有点复杂了,我们要想办法实现netlogon和sysvol的自动共享,其中sysvol 文件夹是安装AD时创建的,它用来存放组策略和脚本相关信息,用户登录或计算机启动时,会首先在SYSVOL文件查找组策略和启动脚本。而且此文件夹中的 信息,会自动复制到域中所有DC上。那现在DC02上没有出现,我们就需要想办法从DC01复制过来,同理,当sysvol文件夹复制成功 后,Netlogon文件夹也会一起出现。方法如下:
步骤1:net stop ntfrs 首先停止文件复制服务
步骤2:删除或者是改名 c:\windows\ntfrs\jet\netfrs.jdb;c:\windows\ntfrs\jet\sys\edb.chk; c:\windows\ntfrs\jet\log\edb.log、es00001.jrs、edbres00002.jrs三个文件。可以删除也可以 改名。
步骤3:修改注册表:HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet \Services\NtFrs\Parameters\Backup/Restore\Process at Startup在右边找到BurFlags由0改为D2。如下图所示:
最常见的值 BurFlags 注册表项是:D2称为非授权模式还原;D4称为的授权模式还原。
步骤3:net start ntfrs 再启动文件复制服务。
步骤4:稍等五分钟左右,检查应用程序和服务日志下的文件复制服务日志:
看到此图中存在13554的日志,入站源和出站目标是dco1,一般就说明已经从DC01上开始进行文件复制了。此时,最好在dc01上也重新启动 Ntfrs服务。此时就可以使用net share查看sysvol文件夹是否出现。如果还未出现,可以使用命令: repadmin /showrepl 查看复制AD复制状态。
很显示,复制没有成功。看来革命尚未成功,同志仍需努力。接下来我们需要利用repdump.exe工具进行检查:
Rpcdump的作用是:查询远程过程调用 (RPC) 终结点的状态及有关 RPC 的其他信息。
然后分析生成的rpcdump.txt文件,下面我们摘抄一部分分析:
其中Protseq:ncacn_ip_tcp: 也有可能是ncacn_http协议等, 为RPC over HTTP 选择指定的协议序列。Endpoint:49662:定RPC 服务器进程为远程过程调用侦听的TCP/IP 端口。
Annotation:ntfrs API:相应的服务。Stringbinding: ncacn_ip_tcp:dc01.it.abc.local[49662]:连接字符串,协议名:对方主机名:端口。
在此次故障中,是因为手动指定了文件复制服务所使用的端口,而此端口可能与其他服务存在冲突,所以需要将文件复制服务所使用的端口改为动态分配,方法是需要修改注册表,如下图所示:
需要将HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\services\Ntfrs \Paramenters中的Rpc Tcp/ip Port Assigment删除。如果你打开某台DC,没有这一项则说明文件复制服务使用的端口是动态分配。如果是手动的,则需要考虑是否与其他端口冲突。查看某 端口是否冲突也很简单,使用下面的命令:
Netstat –abon >c:\netstat.txt 此命令执行结束后,从此文本命令中查找该端口(如49153)所对应的PID。
如下图所示:
可以看到49153被eventlog程序所用,PID是824。然后使用下面的命令tasklist/svc,可以进一步824所对应的具体程序或服务:
通过以上两个命令就可以找出服务所使用的端口信息,以及文件复制服务所用的端口是否存在冲突。另外,如果需要检测135端口,也可以使用Netstat –abon >c:\netstat.txt分析,在另一台DC上使用telnet远程测试一下: telnet dc02.it.abc.local 135,在此不再论述。
经过以上步骤的分析和操作,故障基本上就可以解决了,在节点server1上执行nltest /dclist:it.abc.local命令返回DC信息,如下图所示:
好了,我们此次故障算是圆满解决了。也希望大家能从此篇文章中有所收获,如果你在工作中遇到了此问题,也希望与你交流。本文来自:http://server.it168.com/a2012/0712/1371/000001371360_2.shtml
转载于:https://blog.51cto.com/52czy/1851066