python 爬虫（正则表达式案例）

最新推荐文章于 2024-08-23 09:55:33 发布

HaiLYH

最新推荐文章于 2024-08-23 09:55:33 发布

阅读量1.5k

点赞数

本文链接：https://blog.csdn.net/qq_29557137/article/details/79220050

版权

一直对爬虫充满着好奇，最近终于有时间来好好学习一番，我是在网上找到传智播客的课程视频，跟着视频学习python编写爬虫的，很多案例都很通用，特别记录一下，以后工作中遇到了可以直接拿来使用。

下面这个案例是使用正则表达式来提取内涵段子网上的段子。该示例是在python3的环境下运行的

import urllib.request
import re
import random

class Spider:

    def headers(self):
        """
        随机产生User-Agent的header
        :return: 
        """
        headers_list = [
            "User-Agent:Mozilla/5.0(compatible;MSIE9.0;WindowsNT6.1;Trident/5.0",
            "User-Agent:Mozilla/4.0(compatible;MSIE8.0;WindowsNT6.0;Trident/4.0)",
            "User-Agent:Mozilla/4.0(compatible;MSIE7.0;WindowsNT6.0)",
            "Mozilla/5.0(WindowsNT6.1;rv:2.0.1)Gecko/20100101Firefox/4.0.1",
            "Opera/9.80(WindowsNT6.1;U;en)Presto/2.8.131Version/11.11",
            "Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;TencentTraveler4.0)",
            "M