本文poll机制的内核原理,再说在编程中的使用。
先从内核原理说:
所有的系统调用,基于都可以在它的名字前加上“sys_”前缀,这就是它在内核中对应的函数。比如系统调用open、read、write、poll,与之对应的内核函数为:sys_open、sys_read、sys_write、sys_poll。
一、内核框架:
对于系统调用poll或select,它们对应的内核函数都是sys_poll。分析sys_poll,即可理解poll机制。
1. sys_poll函数位于fs/select.c文件中,代码如下:
asmlinkagelong sys_poll(struct pollfd __user *ufds, unsigned int nfds,
long timeout_msecs)
{
s64 timeout_jiffies;
if (timeout_msecs > 0) {
#ifHZ > 1000
/* We can only overflow if HZ >1000 */
if (timeout_msecs / 1000 >(s64)0x7fffffffffffffffULL / (s64)HZ)
timeout_jiffies = -1;
else
#endif
timeout_jiffies =msecs_to_jiffies(timeout_msecs);
} else {
/* Infinite (< 0) or no (0)timeout */
timeout_jiffies = timeout_msecs;
}
return do_sys_poll(ufds,nfds, &timeout_jiffies);
}
它对超时参数稍作处理后,直接调用do_sys_poll。
2. do_sys_poll函数也位于位于fs/select.c文件中,我们忽略其他代码:
intdo_sys_poll(struct pollfd __user *ufds, unsigned int nfds, s64 *timeout)
{
……
poll_initwait(&table);
……
fdcount = do_poll(nfds, head,&table, timeout);
……
}
poll_initwait函数非常简单,它初始化一个poll_wqueues变量table:
poll_initwait> init_poll_funcptr(&pwq->pt, __pollwait); > pt->qproc = qproc;
即table->pt->qproc= __pollwait,__pollwait将在驱动的poll函数里用到。
3. do_sys_poll函数位于fs/select.c文件中,代码如下:
static int do_poll(unsigned int nfds, struct poll_list *list,
struct poll_wqueues *wait, s64 *timeout)
{
01 ……
02 for (;;){
03 ……
04 if(do_pollfd(pfd, pt)) {
05 count++;
06 pt = NULL;
07 }
08 ……
09 if(count || !*timeout || signal_pending(current))
10 break;
11 count= wait->error;
12 if(count)
13 break;
14
15 if(*timeout < 0) {
16 /*Wait indefinitely */
17 __timeout= MAX_SCHEDULE_TIMEOUT;
18 }else if (unlikely(*timeout >= (s64)MAX_SCHEDULE_TIMEOUT-1)) {
19 /*
20 * Wait for longer than MAX_SCHEDULE_TIMEOUT. Do it in
21 * a loop
22 */
23 __timeout= MAX_SCHEDULE_TIMEOUT - 1;
24 *timeout-= __timeout;
25 }else {
26 __timeout= *timeout;
27 *timeout= 0;
28 }
29
30 __timeout= schedule_timeout(__timeout);
31 if(*timeout >= 0)
32 *timeout+= __timeout;
33 }
34 __set_current_state(TASK_RUNNING);
35 returncount;
36 }
分析其中的代码,可以发现,它的作用如下:
① 从02行可以知道,这是个循环,它退出的条件为:
a. 09行的3个条件之一(count非0,超时、有信号等待处理)
count非0表示04行的do_pollfd至少有一个成功。
b. 11、12行:发生错误
② 重点在do_pollfd函数,后面再分析
③ 第30行,让本进程休眠一段时间,注意:应用程序执行poll调用后,如果①②的条件不满足,进程就会进入休眠。那么,谁唤醒呢?除了休眠到指定时间被系统唤醒外,还可以被驱动程序唤醒──记住这点,这就是为什么驱动的poll里要调用poll_wait的原因,后面分析。
4. do_pollfd函数位于fs/select.c文件中,代码如下:
static inline unsigned int do_pollfd(struct pollfd*pollfd, poll_table *pwait)
{
……
if(file->f_op && file->f_op->poll)
mask= file->f_op->poll(file, pwait);
……
}
可见,它就是调用我们的驱动程序里注册的poll函数。
二、驱动程序:
驱动程序里与poll相关的地方有两处:一是构造file_operation结构时,要定义自己的poll函数。二是通过poll_wait来调用上面说到的__pollwait函数,pollwait的代码如下:
staticinline void poll_wait(struct file * filp, wait_queue_head_t * wait_address,poll_table *p)
{
if (p && wait_address)
p->qproc(filp, wait_address, p);
}
p->qproc就是__pollwait函数,从它的代码可知,它只是把当前进程挂入我们驱动程序里定义的一个队列里而已。它的代码如下:
staticvoid __pollwait(struct file *filp, wait_queue_head_t *wait_address,
poll_table *p)
{
struct poll_table_entry *entry =poll_get_entry(p);
if (!entry)
return;
get_file(filp);
entry->filp = filp;
entry->wait_address = wait_address;
init_waitqueue_entry(&entry->wait,current);
add_wait_queue(wait_address,&entry->wait);
}
执行到驱动程序的poll_wait函数时,进程并没有休眠,我们的驱动程序里实现的poll函数是不会引起休眠的。让进程进入休眠,是前面分析的do_sys_poll函数的30行“__timeout = schedule_timeout(__timeout)”。
poll_wait只是把本进程挂入某个队列,应用程序调用poll > sys_poll> do_sys_poll > poll_initwait,do_poll > do_pollfd > 我们自己写的poll函数后,再调用schedule_timeout进入休眠。如果我们的驱动程序发现情况就绪,可以把这个队列上挂着的进程唤醒。可见,poll_wait的作用,只是为了让驱动程序能找到要唤醒的进程。即使不用poll_wait,我们的程序也有机会被唤醒:chedule_timeout(__timeout),只是要休眠__time_out这段时间。
现在来总结一下poll机制:
1. poll > sys_poll > do_sys_poll >poll_initwait,poll_initwait函数注册一下回调函数__pollwait,它就是我们的驱动程序执行poll_wait时,真正被调用的函数。
2. 接下来执行file->f_op->poll,即我们驱动程序里自己实现的poll函数
它会调用poll_wait把自己挂入某个队列,这个队列也是我们的驱动自己定义的;
它还判断一下设备是否就绪。
3. 如果设备未就绪,do_sys_poll里会让进程休眠一定时间
4. 进程被唤醒的条件有2:一是上面说的“一定时间”到了,二是被驱动程序唤醒。驱动程序发现条件就绪时,就把“某个队列”上挂着的进程唤醒,这个队列,就是前面通过poll_wait把本进程挂过去的队列。
5. 如果驱动程序没有去唤醒进程,那么chedule_timeout(__timeou)超时后,会重复2、3动作,直到应用程序的poll调用传入的时间到达。
上面是内核的机制原理来自于韦东山老师的笔记,
我来说一下应用层和驱动层的具体用法。
在驱动层:
在file_operations 结构体重指出poll成员的函数
static struct file_operations third_fpos= {
.owner = THIS_MODULE,
.open = thirddri_open,
.release = thirddri_close,
.read = thirddri_read,
.poll = thirddri_poll,
};
static unsignedint thirddri_poll(struct file *filp,struct poll_table_struct *pt)
{
poll_wait(filp, &button_waiter, pt);
if (queue)
returnPOLLIN | POLLRDNORM;
return 0;
}
在函数中调用 poll_wait函数,这是内核提供的函数不用我们自己写,函数里的三个参数,第一个和第二个参数 由上层调用传进来的,这里不用管。第二个参数由我们自己声明。要 生成一个等待队列头,
staticDECLARE_WAIT_QUEUE_HEAD(button_waiter);
注意返回值!上面分析内核源码已经知道了!返回值为非零时count++;这样会跳出上面说到的那个do_poll函数中的死循环;
那么重点就落在了这个queue数据上!这个的变化就是关键了!什么情况下是非零什么情况下是零就看你怎么编程了!我是初始化成0然后在中断处理函数中将这个数变成1,这样就使得中断已发生就可以从do_poll函数中返回!上面已经说过了休眠就在这个do_poll函数中!从这函数返回就回到了应用层(别忘了我们的poll函数是应用层调用的)调用顺序是上面已经说了的!
再说应用层:
应用层就是poll函数的使用,可以在系统用用man poll 命名获取帮助,我还是在下面说一下
# include < sys/ poll. h>
int poll ( struct pollfd * fds, unsigned int nfds, int timeout);
和select()不一样,poll()没有使用低效的三个基于位的文件描述符set,而是采用了一个单独的结构体pollfd数组,由fds指针指向这个组。pollfd结构体定义如下:
# include < sys/ poll. h>
struct pollfd {
int fd; /* 文件描述符 */
short events; /* 等待的事件 */
short revents; /* 实际发生了的事件 */
} ;
每一个pollfd结构体指定了一个被监视的文件描述符,可以传递多个结构体,指示poll()监视多个文件描述符。每个结构体的events域是监视该文件描述符的事件掩码,由用户来设置这个域。revents域是文件描述符的操作结果事件掩码。内核在调用返回时设置这个域。events域中请求的任何事件都可能在revents域中返回。
注意events是用户输入的事件掩码,如果它设置为零,那么内核返回给我们的revents就永远是零了!!
合法的事件如下:
POLLIN
有数据可读。
POLLRDNORM
有普通数据可读。
POLLRDBAND
有优先数据可读。
POLLPRI
有紧迫数据可读。
POLLOUT
写数据不会导致阻塞。
POLLWRNORM
写普通数据不会导致阻塞。
POLLWRBAND
写优先数据不会导致阻塞。
POLLMSG
SIGPOLL 消息可用。
此外,revents域中还可能返回下列事件:
POLLER
指定的文件描述符发生错误。
POLLHUP
指定的文件描述符挂起事件。
POLLNVAL
指定的文件描述符非法。
这些事件在events域中无意义,因为它们在合适的时候总是会从revents中返回。使用poll()和select()不一样,你不需要显式地请求异常情况报告。
POLLIN | POLLPRI等价于select()的读事件,POLLOUT|POLLWRBAND等价于select()的写事件。POLLIN等价于POLLRDNORM|POLLRDBAND,而POLLOUT则等价于POLLWRNORM。
例如,要同时监视一个文件描述符是否可读和可写,我们可以设置events为POLLIN|POLLOUT。在poll返回时,我们可以检查revents中的标志,对应于文件描述符请求的events结构体。如果POLLIN事件被设置,则文件描述符可以被读取而不阻塞。如果POLLOUT被设置,则文件描述符可以写入而不导致阻塞。这些标志并不是互斥的:它们可能被同时设置,表示这个文件描述符的读取和写入操作都会正常返回而不阻塞。
timeout参数指定等待的毫秒数,无论I/O是否准备好,poll都会返回。timeout指定为负数值表示无限超时,使poll()一直挂起直到一个指定事件发生;timeout为0指示poll调用立即返回并列出准备好I/O的文件描述符,但并不等待其它的事件。这种情况下,poll()就像它的名字那样,一旦选举出来,立即返回。
返回值和错误代码
成功时,poll()返回结构体中revents域不为0的文件描述符个数;如果在超时前没有任何事件发生,poll()返回0;失败时,poll()返回-1,并设置errno为下列值之一:
EBADF
一个或多个结构体中指定的文件描述符无效。
EFAULT
fds指针指向的地址超出进程的地址空间。
EINTR
请求的事件之前产生一个信号,调用可以重新发起。
EINVAL
nfds参数超出PLIMIT_NOFILE值。
ENOMEM
可用内存不足,无法完成请求。
再说一下select
select和poll的工作原理是一样的 ,都是会调用系统调用 sys_poll 都是读文件描述符的状态,
函数原型:
int select (int numfds , fd_set *readfds , fd_set *writefds , fd_set *exceptfds , timeval *timeout );
其中 readfds 、writefds 、 exceptfds 、分别是被select()监视的读、写、和异常处理的文件描述符集合,numfds 的值是需要检查的号码最高的文件描述符加1.timeout参数是一个指向struct timeval类型的指针,它可以使select()在等待timeout时间后没有文件描述符准备好则返回,这是一个超时时间。
fd_set的相关操作
清除一个文件描述符集合 : FD_ZERO(fd_set *set)
将一个文件描述符加入到一个文件描述符集合中去: FD_SET(int fd , fd_set *set);
将一个文件描述符从一个文件描述符集合中清除 : FD_CLR(int fd , fd_set *set)
判断一个文件描述符是否在一个文件描述符集合中: FD_ISSET( int fd , fd_set *set)
使用的时候先将想要监控的文件描述符加入到相应的文件描述符集合中去,比如 想监控fd 的可读写状态 就需要将fd加入到 readfds 和writefds 中去 exceptfds 和 timeout 可以为NULL , 再调用select(),在用FD_ISSET检查,readfds 中是否有fd 如果有就是可读, 检查 writefds 中是否有fd 如果有 就是可写,。。。
这样就可以读取设备状态
无论是poll 还是 select 都是一个目的,检查文件描述符的状态, 这两个函数的内核入口都是 sys_poll 。。