《Web安全之机器学习入门》笔记：第十二章 12.5 隐式马尔可夫算法识别DGA域名

无明显语义：DGA 域名通常由随机的字符组合而成，没有明显的语义或与合法网站相关的含义。它们可能包含看似无意义的字母、数字和符号的混合，例如 “xzyz234klm.com”，很难通过直观的方式判断其用途或归属。
字符组合规律：虽然 DGA 域名看似随机，但在字符组合上可能存在一定的规律。一些 DGA 算法会按照特定的模式生成字符序列，例如固定的长度、特定字符集的使用频率等。例如，某些 DGA 域名可能总是由 8 个字符组成，其中包含特定比例的数字和字母。
动态生成：DGA 域名是根据一定的算法动态生成的，而不是像正常域名那样事先注册并长期固定使用。这意味着恶意软件可以在不同的时间点生成不同的域名，使得基于静态黑名单的检测方法难以奏效。例如，某个恶意软件可能每天生成 100 个新的 DGA 域名，只有当天的特定几个域名会被用于与控制服务器通信。
与恶意软件关联：DGA 域名主要被恶意软件用于恶意目的，如命令与控制（C2）通信、数据窃取或传播恶意软件等。它们通常与特定的恶意软件家族相关联，不同的恶意软件可能使用不同的 DGA 算法来生成域名，以实现对感染主机的控制和管理。
注册和解析行为异常：DGA 域名的注册和解析行为往往与正常域名不同。它们可能在短时间内大量注册，且注册信息可能不完整或虚假。在解析方面，DGA 域名可能会频繁地解析到不同的 IP 地址，或者解析到一些与合法服务无关的 IP 地址，这些异常行为可以作为检测 DGA 域名的重要线索。

二、马尔可夫算法识别DGA原理

马尔可夫算法识别 DGA 的原理基于正常域名与 DGA 域名在字符序列特征上的差异。正常域名的字符分布和转移具有一定规律，如特定字符间的转移概率相对稳定，语义上也有连贯性。而 DGA 域名由算法随机生成，字符组合常无实际意义，字符转移概率分布特殊。马尔可夫算法通过分析大量正常域名和 DGA 域名样本，学习各自字符间的转移概率，构建不同的转移概率矩阵。当检测未知域名时，依据马尔可夫模型计算其字符序列出现的概率，对比预设阈值，判断其属于正常域名还是 DGA 域名。基于如上原理，通常使用马尔可夫识别DGA域名的步骤如下所示。

特征提取：对于待识别的域名，将其转换为字符序列，并按照训练模型时的字符编码方式进行编码。
计算概率：根据马尔可夫模型，计算该域名字符序列出现的概率。从域名的第一个字符开始，根据初始状态概率分布和转移概率矩阵，依次计算每个字符出现的概率，最终得到整个域名序列的概率。
判断类别：将计算得到的概率与设定的阈值进行比较。如果概率大于阈值，则判定该域名为 DGA 域名；否则，判定为正常域名。阈值的选择可以根据实际需求和模型的性能进行调整，通常通过在测试集上进行实验来确定最佳阈值，以平衡准确率和召回率。

三、马尔可夫算法识别DGA域名

在9.4节通过SVM算法识别DGA域名中，其中使用了HMM特征。接下来通过代码来实现马尔可夫识别DGA域名。

1、白名单

def load_alexa(filename):
    domain_list=[]
    csv_reader = csv.reader(open(filename))
    for row in csv_reader:
        domain=row[1]
        if len(domain) >= MIN_LEN:
            domain_list.append(domain)
    return domain_list

domain_list = load_alexa("../data/top-1000.csv")

2、训练hmm模型

首先通过正常的域名训练hmm，代码如下所示，为了节省训练，如果存在训练好的模型，则是直接load训练好的模型即可。

def train_hmm(domain_list):
    X = [[0]]
    X_lens = [1]
    for domain in domain_list:
        ver=domain2ver(domain)
        np_ver = np.array(ver)
        X=np.concatenate([X,np_ver])
        X_lens.append(len(np_ver))

    remodel = hmm.GaussianHMM(n_components=N, covariance_type="full", n_iter=100)
    remodel.fit(X,X_lens)
    joblib.dump(remodel, FILE_MODEL)

    return remodel

if not os.path.exists(FILE_MODEL):
    remodel=train_hmm(domain_list)
remodel=joblib.load(FILE_MODEL)

3、验证HMM模型

def test_dga(remodel,filename):
    x=[]
    y=[]
    dga_cryptolocke_list = load_dga(filename)
    for domain in dga_cryptolocke_list:
        domain_ver=domain2ver(domain)
        np_ver = np.array(domain_ver)
        pro = remodel.score(np_ver)
        #print  "SCORE:(%d) DOMAIN:(%s) " % (pro, domain)
        x.append(len(domain))
        y.append(pro)
    return x,y

def test_alexa(remodel,filename):
    x=[]
    y=[]
    alexa_list = load_alexa(filename)
    for domain in alexa_list:
        domain_ver=domain2ver(domain)
        np_ver = np.array(domain_ver)
        pro = remodel.score(np_ver)
        #print  "SCORE:(%d) DOMAIN:(%s) " % (pro, domain)
        x.append(len(domain))
        y.append(pro)
    return x, y

x_3,y_3=test_dga(remodel, "../data/dga-post-tovar-goz-1000.txt")
x_2,y_2=test_dga(remodel,"../data/dga-cryptolocke-1000.txt")
x_1,y_1=test_alexa(remodel, "../data/test-top-1000.csv")

4、可视化HMM

计算两类僵尸网络（蓝色和绿色）的HMM，以域名长度为横轴，HMM分数为纵轴作图，并图形展示的源码处理。

    fig,ax=plt.subplots()
    ax.set_xlabel('Domain Length')
    ax.set_ylabel('HMM Score')
    ax.scatter(x_3,y_3,color='b',label="dga_post-tovar-goz")
    ax.scatter(x_2, y_2, color='g', label="dga_cryptolock")
    #ax.scatter(x_1, y_1, color='r', label="alexa")
    ax.legend(loc='right')
    plt.show()

可视化运行结果如下：