一直对爬虫充满着好奇,最近终于有时间来好好学习一番,我是在网上找到传智播客的课程视频,跟着视频学习python编写爬虫的,很多案例都很通用,特别记录一下,以后工作中遇到了可以直接拿来使用。
下面这个案例是使用正则表达式来提取内涵段子网上的段子。该示例是在python3的环境下运行的
import urllib.request
import re
import random
class Spider:
def headers(self):
"""
随机产生User-Agent的header
:return:
"""
headers_list = [
"User-Agent:Mozilla/5.0(compatible;MSIE9.0;WindowsNT6.1;Trident/5.0",
"User-Agent:Mozilla/4.0(compatible;MSIE8.0;WindowsNT6.0;Trident/4.0)",
"User-Agent:Mozilla/4.0(compatible;MSIE7.0;WindowsNT6.0)",
"Mozilla/5.0(WindowsNT6.1;rv:2.0.1)Gecko/20100101Firefox/4.0.1",
"Opera/9.80(WindowsNT6.1;U;en)Presto/2.8.131Version/11.11",
"Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;TencentTraveler4.0)",
"M