今天WPS For Linux Alpha 7发布了,首先感谢WPS团队的辛勤耕耘,
论坛抢包子那个热闹啊,很期待明年的beta。
但论坛抢包子有个问题,楼下跟帖的内容是所有人可见的(包括游客),于是乎就有大量的email地址暴露在大家面前。下面我将用Python试着抓取网页中的这些email地址,顺便练习一下Python的标准库。(老鸟请绕道)
涉及到的库有http.client(处理HTTP)、re(正则表达式)、threading(多线程)。
首先,要抓取网页内容,必须先拿到html页面。http.client.HTTPConnection就是用来做这个工作的。http.client.HTTPConnection的构造函数中,host指明web服务器地址,port指明端口(默认80)。
其中以下几种形式的效果相同:
>>> h1 = http.client.HTTPConnection('www.cwi.nl')
>>> h2 = http.client.HTTPConnection('www.cwi.nl:80')
>>> h3 = http.client.HTTPConnection('www.cwi.nl', 80)
构造函数返回一个HTTPConnection对象,代表了当前这条http连接。然后就可以用这个HTTPConnection对象发送一个requ
但论坛抢包子有个问题,楼下跟帖的内容是所有人可见的(包括游客),于是乎就有大量的email地址暴露在大家面前。下面我将用Python试着抓取网页中的这些email地址,顺便练习一下Python的标准库。(老鸟请绕道)
涉及到的库有http.client(处理HTTP)、re(正则表达式)、threading(多线程)。
首先,要抓取网页内容,必须先拿到html页面。http.client.HTTPConnection就是用来做这个工作的。http.client.HTTPConnection的构造函数中,host指明web服务器地址,port指明端口(默认80)。
其中以下几种形式的效果相同:
>>> h1 = http.client.HTTPConnection('www.cwi.nl')
>>> h2 = http.client.HTTPConnection('www.cwi.nl:80')
>>> h3 = http.client.HTTPConnection('www.cwi.nl', 80)
构造函数返回一个HTTPConnection对象,代表了当前这条http连接。然后就可以用这个HTTPConnection对象发送一个requ