linux内核sk_buff的结构分析

最新推荐文章于 2023-09-25 07:47:42 发布

转载最新推荐文章于 2023-09-25 07:47:42 发布 · 766 阅读

文章标签：

#linux skb

linux net 专栏收录该内容

11 篇文章

订阅专栏

本文深入探讨了Linux内核2.6.32版本中sk_buff数据结构的设计原理及其相关操作函数，包括skb的内存布局、sk_buff_head结构、skb克隆机制等，并通过实例解释了skb在不同层间传递时的控制信息处理。

http://simohayha.iteye.com/blog/556168

内核版本是2.6.32.

在内核中sk_buff表示一个网络数据包，它是一个双向链表，而链表头就是sk_buff_head,在老的内核里面sk_buff会有一个list域直接指向sk_buff_head也就是链表头，现在在2.6.32里面这个域已经被删除了。

而sk_buff的内存布局可以分作3个段，第一个就是sk_buff自身，第二个是linear-data buff,第三个是paged-data buff（也就是skb_shared_info）。

ok.我们先来看sk_buff_head的结构。它也就是所有sk_buff的头。

struct sk_buff_head {  

    /* These two members must be first. */  

    struct sk_buff  *next;  

    struct sk_buff  *prev;  

    __u32       qlen;  

    spinlock_t  lock;  

};

这里可以看到前两个域是和sk_buff一致的，而且内核的注释是必须放到最前面。这里的原因是：

这使得两个不同的结构可以放到同一个链表中，尽管sk_buff_head要比sk_buff小巧的多。另外，相同的函数可以同样应用于sk_buff和sk_buff_head。

然后qlen域表示了当前的sk_buff链上包含多少个skb。

lock域是自旋锁。

然后我们来看sk_buff，下面就是skb的结构：

我这里注释了一些简单的域，复杂的域下面会单独解释。

struct sk_buff {  

    /* These two members must be first. */  

    struct sk_buff      *next;  

    struct sk_buff      *prev;  

//表示从属于那个socket，主要是被4层用到。  

    struct sock     *sk;  

//表示这个skb被接收的时间。  

    ktime_t         tstamp;  

//这个表示一个网络设备，当skb为输出时它表示skb将要输出的设备，当接收时，它表示输入设备。要注意，这个设备有可能会是虚拟设备(在3层以上看来)  

    struct net_device   *dev;  

///这里其实应该是dst_entry类型，不知道为什么内核要改为ul。这个域主要用于路由子系统。这个数据结构保存了一些路由相关信息  

    unsigned long       _skb_dst;  

#ifdef CONFIG_XFRM  

    struct  sec_path    *sp;  

#endif  

///这个域很重要，我们下面会详细说明。这里只需要知道这个域是保存每层的控制信息的就够了。  

    char            cb[48];  

///这个长度表示当前的skb中的数据的长度，这个长度即包括buf中的数据也包括切片的数据，也就是保存在skb_shared_info中的数据。这个值是会随着从一层到另一层而改变的。下面我们会对比这几个长度的。  

    unsigned int        len,  

///这个长度只表示切片数据的长度，也就是skb_shared_info中的长度。  

                data_len;  

///这个长度表示mac头的长度(2层的头的长度)  

    __u16           mac_len,  

///这个主要用于clone的时候，它表示clone的skb的头的长度。  

                hdr_len;  

///接下来是校验相关的域。  

    union {  

        __wsum      csum;  

        struct {  

            __u16   csum_start;  

            __u16   csum_offset;  

        };  

    };  

///优先级，主要用于QOS。  

    __u32           priority;  

    kmemcheck_bitfield_begin(flags1);  

///接下来是一些标志位。  

//首先是是否可以本地切片的标志。  

    __u8            local_df:1,  

///为1说明头可能被clone。  

                cloned:1,  

///这个表示校验相关的一个标记,表示硬件驱动是否为我们已经进行了校验(前面的blog有介绍)  

                ip_summed:2,  

///这个域如果为1,则说明这个skb的头域指针已经分配完毕，因此这个时候计算头的长度只需要head和data的差就可以了。  

                nohdr:1,  

///这个域不太理解什么意思。  

                nfctinfo:3;  

///pkt_type主要是表示数据包的类型，比如多播，单播，回环等等。  

    __u8            pkt_type:3,  

///这个域是一个clone标记。主要是在fast clone中被设置，我们后面讲到fast clone时会详细介绍这个域。  

                fclone:2,  

///ipvs拥有的域。  

                ipvs_property:1,  

///这个域应该是udp使用的一个域。表示只是查看数据。  

                peeked:1,  

///netfilter使用的域。是一个trace 标记  

                nf_trace:1;  

///这个表示L3层的协议。比如IP,IPV6等等。  

    __be16          protocol:16;  

    kmemcheck_bitfield_end(flags1);  

///skb的析构函数，一般都是设置为sock_rfree或者sock_wfree.  

    void            (*destructor)(struct sk_buff *skb);  

///netfilter相关的域。  

#if defined(CONFIG_NF_CONNTRACK) || defined(CONFIG_NF_CONNTRACK_MODULE)  

    struct nf_conntrack *nfct;  

    struct sk_buff      *nfct_reasm;  

#endif  

#ifdef CONFIG_BRIDGE_NETFILTER  

    struct nf_bridge_info   *nf_bridge;  

#endif  

///接收设备的index。  

    int         iif;  

///流量控制的相关域。  

#ifdef CONFIG_NET_SCHED  

    __u16           tc_index;   /* traffic control index */  

#ifdef CONFIG_NET_CLS_ACT  

    __u16           tc_verd;    /* traffic control verdict */  

#endif  

#endif  

    kmemcheck_bitfield_begin(flags2);  

///多队列设备的映射，也就是说映射到那个队列。  

    __u16           queue_mapping:16;  

#ifdef CONFIG_IPV6_NDISC_NODETYPE  

    __u8            ndisc_nodetype:2;  

#endif  

    kmemcheck_bitfield_end(flags2);  

    /* 0/14 bit hole */  

#ifdef CONFIG_NET_DMA  

    dma_cookie_t        dma_cookie;  

#endif  

#ifdef CONFIG_NETWORK_SECMARK  

    __u32           secmark;  

#endif  

///skb的标记。  

    __u32           mark;  

///vlan的控制tag。  

    __u16           vlan_tci;  

///传输层的头  

    sk_buff_data_t      transport_header;  

///网络层的头  

    sk_buff_data_t      network_header;  

///链路层的头。  

    sk_buff_data_t      mac_header;  

///接下来就是几个操作skb数据的指针。下面会详细介绍。  

    sk_buff_data_t      tail;  

    sk_buff_data_t      end;  

    unsigned char       *head,  

                *data;  

///这个表示整个skb的大小，包括skb本身，以及数据。  

    unsigned int        truesize;  

///skb的引用计数  

    atomic_t        users;  

};

我们来看前面没有解释的那些域。

先来看cb域，他保存了每层所独自需要的内部数据。我们来看tcp的例子。

我们知道tcp层的控制信息保存在tcp_skb_cb中，因此来看内核提供的宏来存取这个数据结构：

#define TCP_SKB_CB(__skb)  ((struct tcp_skb_cb *)&((__skb)->cb[0]))  

在ip层的话，我们可能会用cb来存取切片好的帧。

#define FRAG_CB(skb)    ((struct ipfrag_skb_cb *)((skb)->cb))  

到这里你可能会问如果我们想要在到达下一层后，还想保存当前层的私有信息怎么办。这个时候我们就可以使用skb的clone了。也就是之只复制sk_buff结构。

然后我们到http://vger.kernel.org/~davem/skb_data.html看几个比较比较重要的域 len,data,tail,head,end。

下图就是alloc_skb之后的skb的指针的状态。这里忽略了fclone。

然后我们来看skb_clone函数，clone的意思就是只复制skb而不复制data域。

这里它会先判断将要被clone的skb的fclone段，以便与决定是否重新分配一块内存来保存skb。

然后调用__skb_clone来初始化相关的域。

struct sk_buff *skb_clone(struct sk_buff *skb, gfp_t gfp_mask)  

{  

    struct sk_buff *n;  

///n为skb紧跟着那块内存，这里如果skb是通过skb_fclone分配的，那么n就是一个skb。  

    n = skb + 1;  

///skb和n的fclone都要符合要求，可以看到这里的值就是我们在__alloc_skb中设置的值。  

    if (skb->fclone == SKB_FCLONE_ORIG &&  

        n->fclone == SKB_FCLONE_UNAVAILABLE) {  

///到这里，就说明我们不需要alloc一个skb，直接取n就可以了，并且设置fclone的标记。并修改引用计数。  

        atomic_t *fclone_ref = (atomic_t *) (n + 1);  

        n->fclone = SKB_FCLONE_CLONE;  

        atomic_inc(fclone_ref);  

    } else {  

///这里就需要从cache中取得一块内存。  

        n = kmem_cache_alloc(skbuff_head_cache, gfp_mask);  

        if (!n)  

            return NULL;  

        kmemcheck_annotate_bitfield(n, flags1);  

        kmemcheck_annotate_bitfield(n, flags2);  

///设置新的skb的fclone域。这里我们新建的skb，没有被fclone的都是这个标记。  

        n->fclone = SKB_FCLONE_UNAVAILABLE;  

    }  

    return __skb_clone(n, skb);  

}

这里__skb_clone就不介绍了，函数就是将要被clone的skb的域赋值给clone的skb。

下图就是skb_clone之后的两个skb的结构图：

当一个skb被clone之后，这个skb的数据区是不能被修改的，这就意为着，我们存取数据不需要任何锁。可是有时我们需要修改数据区，这个时候会有两个选择，一个是我们只修改linear段，也就是head和end之间的段，一种是我们还要修改切片数据，也就是skb_shared_info.

这样就有两个函数供我们选择，第一个是pskb_copy,第二个是skb_copy.

我们先来看pskb_copy,函数先alloc一个新的skb，然后调用skb_copy_from_linear_data来复制线性区的数据。

struct sk_buff *pskb_copy(struct sk_buff *skb, gfp_t gfp_mask)  

{  

    /* 

     *  Allocate the copy buffer 

     */  

    struct sk_buff *n;  

#ifdef NET_SKBUFF_DATA_USES_OFFSET  

    n = alloc_skb(skb->end, gfp_mask);  

#else  

    n = alloc_skb(skb->end - skb->head, gfp_mask);  

#endif  

    if (!n)  

        goto out;  

    /* Set the data pointer */  

    skb_reserve(n, skb->data - skb->head);  

    /* Set the tail pointer and length */  

    skb_put(n, skb_headlen(skb));  

///复制线性数据段。  

    skb_copy_from_linear_data(skb, n->data, n->len);  

///更新相关域  

    n->truesize += skb->data_len;  

    n->data_len  = skb->data_len;  

    n->len        = skb->len;  

///下面只是复制切片数据的指针  

if (skb_shinfo(skb)->nr_frags) {  

        int i;  

        for (i = 0; i < skb_shinfo(skb)->nr_frags; i++) {  

            skb_shinfo(n)->frags[i] = skb_shinfo(skb)->frags[i];  

            get_page(skb_shinfo(n)->frags[i].page);  

        }  

        skb_shinfo(n)->nr_frags = i;  

    }  

...............................  

    copy_skb_header(n, skb);  

out:  

    return n;  

}

然后是skb_copy,它是复制skb的所有数据段，包括切片数据：

struct sk_buff *skb_copy(const struct sk_buff *skb, gfp_t gfp_mask)  

{  

    int headerlen = skb->data - skb->head;  

    /* 

     *  Allocate the copy buffer 

     */  

//先alloc一个新的skb  

    struct sk_buff *n;  

#ifdef NET_SKBUFF_DATA_USES_OFFSET  

    n = alloc_skb(skb->end + skb->data_len, gfp_mask);  

#else  

    n = alloc_skb(skb->end - skb->head + skb->data_len, gfp_mask);  

#endif  

    if (!n)  

        return NULL;  

    /* Set the data pointer */  

    skb_reserve(n, headerlen);  

    /* Set the tail pointer and length */  

    skb_put(n, skb->len);  

///然后复制所有的数据。  

    if (skb_copy_bits(skb, -headerlen, n->head, headerlen + skb->len))  

        BUG();  

    copy_skb_header(n, skb);  

    return n;  

}

下面这张图就表示了psb_copy和skb_copy调用后的内存模型，其中a是pskb_copy,b是skb_copy:

最后来看skb的释放：
这里主要是判断一个引用标记位users,将它减一，如果大于0则直接返回，否则释放skb。

void kfree_skb(struct sk_buff *skb)  

{  

    if (unlikely(!skb))  

        return;  

    if (likely(atomic_read(&skb->users) == 1))  

        smp_rmb();  

///减一，然后判断。  

    else if (likely(!atomic_dec_and_test(&skb->users)))  

        return;  

    trace_kfree_skb(skb, __builtin_return_address(0));  

    __kfree_skb(skb);  

}