http://simohayha.iteye.com/blog/556168
内核版本是2.6.32.
在内核中sk_buff表示一个网络数据包,它是一个双向链表,而链表头就是sk_buff_head,在老的内核里面sk_buff会有一个list域直接指向sk_buff_head也就是链表头,现在在2.6.32里面这个域已经被删除了。
而sk_buff的内存布局可以分作3个段,第一个就是sk_buff自身,第二个是linear-data buff,第三个是paged-data buff(也就是skb_shared_info)。
ok.我们先来看sk_buff_head的结构。它也就是所有sk_buff的头。
- struct sk_buff_head {
- /* These two members must be first. */
- struct sk_buff *next;
- struct sk_buff *prev;
- __u32 qlen;
- spinlock_t lock;
- };
这里可以看到前两个域是和sk_buff一致的,而且内核的注释是必须放到最前面。这里的原因是:
这使得两个不同的结构可以放到同一个链表中,尽管sk_buff_head要比sk_buff小巧的多。另外,相同的函数可以同样应用于sk_buff和sk_buff_head。
然后qlen域表示了当前的sk_buff链上包含多少个skb。
lock域是自旋锁。
然后我们来看sk_buff,下面就是skb的结构:
我这里注释了一些简单的域,复杂的域下面会单独解释。
- struct sk_buff {
- /* These two members must be first. */
- struct sk_buff *next;
- struct sk_buff *prev;
- //表示从属于那个socket,主要是被4层用到。
- struct sock *sk;
- //表示这个skb被接收的时间。
- ktime_t tstamp;
- //这个表示一个网络设备,当skb为输出时它表示skb将要输出的设备,当接收时,它表示输入设备。要注意,这个设备有可能会是虚拟设备(在3层以上看来)
- struct net_device *dev;
- ///这里其实应该是dst_entry类型,不知道为什么内核要改为ul。这个域主要用于路由子系统。这个数据结构保存了一些路由相关信息
- unsigned long _skb_dst;
- #ifdef CONFIG_XFRM
- struct sec_path *sp;
- #endif
- ///这个域很重要,我们下面会详细说明。这里只需要知道这个域是保存每层的控制信息的就够了。
- char cb[48];
- ///这个长度表示当前的skb中的数据的长度,这个长度即包括buf中的数据也包括切片的数据,也就是保存在skb_shared_info中的数据。这个值是会随着从一层到另一层而改变的。下面我们会对比这几个长度的。
- unsigned int len,
- ///这个长度只表示切片数据的长度,也就是skb_shared_info中的长度。
- data_len;
- ///这个长度表示mac头的长度(2层的头的长度)
- __u16 mac_len,
- ///这个主要用于clone的时候,它表示clone的skb的头的长度。
- hdr_len;
- ///接下来是校验相关的域。
- union {
- __wsum csum;
- struct {
- __u16 csum_start;
- __u16 csum_offset;
- };
- };
- ///优先级,主要用于QOS。
- __u32 priority;
- kmemcheck_bitfield_begin(flags1);
- ///接下来是一些标志位。
- //首先是是否可以本地切片的标志。
- __u8 local_df:1,
- ///为1说明头可能被clone。
- cloned:1,
- ///这个表示校验相关的一个标记,表示硬件驱动是否为我们已经进行了校验(前面的blog有介绍)
- ip_summed:2,
- ///这个域如果为1,则说明这个skb的头域指针已经分配完毕,因此这个时候计算头的长度只需要head和data的差就可以了。
- nohdr:1,
- ///这个域不太理解什么意思。
- nfctinfo:3;
- ///pkt_type主要是表示数据包的类型,比如多播,单播,回环等等。
- __u8 pkt_type:3,
- ///这个域是一个clone标记。主要是在fast clone中被设置,我们后面讲到fast clone时会详细介绍这个域。
- fclone:2,
- ///ipvs拥有的域。
- ipvs_property:1,
- ///这个域应该是udp使用的一个域。表示只是查看数据。
- peeked:1,
- ///netfilter使用的域。是一个trace 标记
- nf_trace:1;
- ///这个表示L3层的协议。比如IP,IPV6等等。
- __be16 protocol:16;
- kmemcheck_bitfield_end(flags1);
- ///skb的析构函数,一般都是设置为sock_rfree或者sock_wfree.
- void (*destructor)(struct sk_buff *skb);
- ///netfilter相关的域。
- #if defined(CONFIG_NF_CONNTRACK) || defined(CONFIG_NF_CONNTRACK_MODULE)
- struct nf_conntrack *nfct;
- struct sk_buff *nfct_reasm;
- #endif
- #ifdef CONFIG_BRIDGE_NETFILTER
- struct nf_bridge_info *nf_bridge;
- #endif
- ///接收设备的index。
- int iif;
- ///流量控制的相关域。
- #ifdef CONFIG_NET_SCHED
- __u16 tc_index; /* traffic control index */
- #ifdef CONFIG_NET_CLS_ACT
- __u16 tc_verd; /* traffic control verdict */
- #endif
- #endif
- kmemcheck_bitfield_begin(flags2);
- ///多队列设备的映射,也就是说映射到那个队列。
- __u16 queue_mapping:16;
- #ifdef CONFIG_IPV6_NDISC_NODETYPE
- __u8 ndisc_nodetype:2;
- #endif
- kmemcheck_bitfield_end(flags2);
- /* 0/14 bit hole */
- #ifdef CONFIG_NET_DMA
- dma_cookie_t dma_cookie;
- #endif
- #ifdef CONFIG_NETWORK_SECMARK
- __u32 secmark;
- #endif
- ///skb的标记。
- __u32 mark;
- ///vlan的控制tag。
- __u16 vlan_tci;
- ///传输层的头
- sk_buff_data_t transport_header;
- ///网络层的头
- sk_buff_data_t network_header;
- ///链路层的头。
- sk_buff_data_t mac_header;
- ///接下来就是几个操作skb数据的指针。下面会详细介绍。
- sk_buff_data_t tail;
- sk_buff_data_t end;
- unsigned char *head,
- *data;
- ///这个表示整个skb的大小,包括skb本身,以及数据。
- unsigned int truesize;
- ///skb的引用计数
- atomic_t users;
- };
我们来看前面没有解释的那些域。
先来看cb域,他保存了每层所独自需要的内部数据。我们来看tcp的例子。
我们知道tcp层的控制信息保存在tcp_skb_cb中,因此来看内核提供的宏来存取这个数据结构:
- #define TCP_SKB_CB(__skb) ((struct tcp_skb_cb *)&((__skb)->cb[0]))
在ip层的话,我们可能会用cb来存取切片好的帧。
- #define FRAG_CB(skb) ((struct ipfrag_skb_cb *)((skb)->cb))
到这里你可能会问如果我们想要在到达下一层后,还想保存当前层的私有信息怎么办。这个时候我们就可以使用skb的clone了。也就是之只复制sk_buff结构。
然后我们到http://vger.kernel.org/~davem/skb_data.html看几个比较比较重要的域 len,data,tail,head,end。
下图就是alloc_skb之后的skb的指针的状态。这里忽略了fclone。
然后我们来看skb_clone函数,clone的意思就是只复制skb而不复制data域。
这里它会先判断将要被clone的skb的fclone段,以便与决定是否重新分配一块内存来保存skb。
然后调用__skb_clone来初始化相关的域。
- struct sk_buff *skb_clone(struct sk_buff *skb, gfp_t gfp_mask)
- {
- struct sk_buff *n;
- ///n为skb紧跟着那块内存,这里如果skb是通过skb_fclone分配的,那么n就是一个skb。
- n = skb + 1;
- ///skb和n的fclone都要符合要求,可以看到这里的值就是我们在__alloc_skb中设置的值。
- if (skb->fclone == SKB_FCLONE_ORIG &&
- n->fclone == SKB_FCLONE_UNAVAILABLE) {
- ///到这里,就说明我们不需要alloc一个skb,直接取n就可以了,并且设置fclone的标记。并修改引用计数。
- atomic_t *fclone_ref = (atomic_t *) (n + 1);
- n->fclone = SKB_FCLONE_CLONE;
- atomic_inc(fclone_ref);
- } else {
- ///这里就需要从cache中取得一块内存。
- n = kmem_cache_alloc(skbuff_head_cache, gfp_mask);
- if (!n)
- return NULL;
- kmemcheck_annotate_bitfield(n, flags1);
- kmemcheck_annotate_bitfield(n, flags2);
- ///设置新的skb的fclone域。这里我们新建的skb,没有被fclone的都是这个标记。
- n->fclone = SKB_FCLONE_UNAVAILABLE;
- }
- return __skb_clone(n, skb);
- }
这里__skb_clone就不介绍了,函数就是将要被clone的skb的域赋值给clone的skb。
下图就是skb_clone之后的两个skb的结构图:
![](http://dl.iteye.com/upload/attachment/185107/771b4885-55eb-3e47-88ae-fa814de947a7.jpeg)
当一个skb被clone之后,这个skb的数据区是不能被修改的,这就意为着,我们存取数据不需要任何锁。可是有时我们需要修改数据区,这个时候会有两个选择,一个是我们只修改linear段,也就是head和end之间的段,一种是我们还要修改切片数据,也就是skb_shared_info.
这样就有两个函数供我们选择,第一个是pskb_copy,第二个是skb_copy.
我们先来看pskb_copy,函数先alloc一个新的skb,然后调用skb_copy_from_linear_data来复制线性区的数据。
- struct sk_buff *pskb_copy(struct sk_buff *skb, gfp_t gfp_mask)
- {
- /*
- * Allocate the copy buffer
- */
- struct sk_buff *n;
- #ifdef NET_SKBUFF_DATA_USES_OFFSET
- n = alloc_skb(skb->end, gfp_mask);
- #else
- n = alloc_skb(skb->end - skb->head, gfp_mask);
- #endif
- if (!n)
- goto out;
- /* Set the data pointer */
- skb_reserve(n, skb->data - skb->head);
- /* Set the tail pointer and length */
- skb_put(n, skb_headlen(skb));
- ///复制线性数据段。
- skb_copy_from_linear_data(skb, n->data, n->len);
- ///更新相关域
- n->truesize += skb->data_len;
- n->data_len = skb->data_len;
- n->len = skb->len;
- ///下面只是复制切片数据的指针
- if (skb_shinfo(skb)->nr_frags) {
- int i;
- for (i = 0; i < skb_shinfo(skb)->nr_frags; i++) {
- skb_shinfo(n)->frags[i] = skb_shinfo(skb)->frags[i];
- get_page(skb_shinfo(n)->frags[i].page);
- }
- skb_shinfo(n)->nr_frags = i;
- }
- ...............................
- copy_skb_header(n, skb);
- out:
- return n;
- }
然后是skb_copy,它是复制skb的所有数据段,包括切片数据:
- struct sk_buff *skb_copy(const struct sk_buff *skb, gfp_t gfp_mask)
- {
- int headerlen = skb->data - skb->head;
- /*
- * Allocate the copy buffer
- */
- //先alloc一个新的skb
- struct sk_buff *n;
- #ifdef NET_SKBUFF_DATA_USES_OFFSET
- n = alloc_skb(skb->end + skb->data_len, gfp_mask);
- #else
- n = alloc_skb(skb->end - skb->head + skb->data_len, gfp_mask);
- #endif
- if (!n)
- return NULL;
- /* Set the data pointer */
- skb_reserve(n, headerlen);
- /* Set the tail pointer and length */
- skb_put(n, skb->len);
- ///然后复制所有的数据。
- if (skb_copy_bits(skb, -headerlen, n->head, headerlen + skb->len))
- BUG();
- copy_skb_header(n, skb);
- return n;
- }
下面这张图就表示了psb_copy和skb_copy调用后的内存模型,其中a是pskb_copy,b是skb_copy:
![](http://dl.iteye.com/upload/attachment/185112/82caf5a3-b192-39f6-a7c0-c9ea77eb1169.jpeg)
最后来看skb的释放:
这里主要是判断一个引用标记位users,将它减一,如果大于0则直接返回,否则释放skb。
- void kfree_skb(struct sk_buff *skb)
- {
- if (unlikely(!skb))
- return;
- if (likely(atomic_read(&skb->users) == 1))
- smp_rmb();
- ///减一,然后判断。
- else if (likely(!atomic_dec_and_test(&skb->users)))
- return;
- trace_kfree_skb(skb, __builtin_return_address(0));
- __kfree_skb(skb);
- }