Python抓取html内容

最新推荐文章于 2024-08-12 10:14:39 发布

hbprotoss

最新推荐文章于 2024-08-12 10:14:39 发布

阅读量6.9k

点赞数

分类专栏： Python 网络技术文章标签： html Html HTML python Python 多线程正则表达式

本文链接：https://blog.csdn.net/digimon/article/details/8245431

版权

本文介绍了如何使用Python进行HTML内容抓取，并结合多线程提高爬取效率。通过start方法启动线程，join方法确保线程执行完成。虽然未涉及互斥量和信号量等同步机制，但对于需要深入学习的读者，官方文档提供了相关参考资料。

摘要由CSDN通过智能技术生成

今天WPS For Linux Alpha 7发布了，首先感谢WPS团队的辛勤耕耘，论坛抢包子那个热闹啊，很期待明年的beta。
　　但论坛抢包子有个问题，楼下跟帖的内容是所有人可见的（包括游客），于是乎就有大量的email地址暴露在大家面前。下面我将用Python试着抓取网页中的这些email地址，顺便练习一下Python的标准库。（老鸟请绕道）
　　涉及到的库有http.client（处理HTTP）、re（正则表达式）、threading（多线程）。
　　
　　首先，要抓取网页内容，必须先拿到html页面。http.client.HTTPConnection就是用来做这个工作的。http.client.HTTPConnection的构造函数中，host指明web服务器地址，port指明端口（默认80）。
　　其中以下几种形式的效果相同：
　　>>> h1 = http.client.HTTPConnection('www.cwi.nl')
　　>>> h2 = http.client.HTTPConnection('www.cwi.nl:80')
　　>>> h3 = http.client.HTTPConnection('www.cwi.nl', 80)
　　
　　构造函数返回一个HTTPConnection对象，代表了当前这条http连接。然后就可以用这个HTTPConnection对象发送一个requ

最低0.47元/天解锁文章

hbprotoss

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python抓取html内容

今天WPS For Linux Alpha 7发布了，首先感谢WPS团队的辛勤耕耘，论坛抢包子那个热闹啊，很期待明年的beta。　　但论坛抢包子有个问题，楼下跟帖的内容是所有人可见的（包括游客），于是乎就有大量的email地址暴露在大家面前。下面我将用Python试着抓取网页中的这些email地址，顺便练习一下Python的标准库。（老鸟请绕道）　　涉及到的库有http.client（处理
复制链接

扫一扫

专栏目录