Python抓取html内容

本文介绍了如何使用Python进行HTML内容抓取,并结合多线程提高爬取效率。通过start方法启动线程,join方法确保线程执行完成。虽然未涉及互斥量和信号量等同步机制,但对于需要深入学习的读者,官方文档提供了相关参考资料。
摘要由CSDN通过智能技术生成
今天WPS For Linux Alpha 7发布了,首先感谢WPS团队的辛勤耕耘, 论坛抢包子那个热闹啊,很期待明年的beta。
  但论坛抢包子有个问题,楼下跟帖的内容是所有人可见的(包括游客),于是乎就有大量的email地址暴露在大家面前。下面我将用Python试着抓取网页中的这些email地址,顺便练习一下Python的标准库。(老鸟请绕道)
  涉及到的库有http.client(处理HTTP)、re(正则表达式)、threading(多线程)。
  
  首先,要抓取网页内容,必须先拿到html页面。http.client.HTTPConnection就是用来做这个工作的。http.client.HTTPConnection的构造函数中,host指明web服务器地址,port指明端口(默认80)。
  其中以下几种形式的效果相同:
  >>> h1 = http.client.HTTPConnection('www.cwi.nl')
  >>> h2 = http.client.HTTPConnection('www.cwi.nl:80')
  >>> h3 = http.client.HTTPConnection('www.cwi.nl', 80)
  
  构造函数返回一个HTTPConnection对象,代表了当前这条http连接。然后就可以用这个HTTPConnection对象发送一个requ
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值