2020-03-22日爬虫练习
爬取网站:别逗了
需求:
爬取分页段子,并将段子标题和正文以字典的形式通过json序列化后存储到本地
技术路线:
- 1.requests
- BeautifulSoup
- Json
- 通过zip函数将列表中奇数位置设为字典的key,偶数位置为相应的value
'''
爬虫实战爬取笑话网
version:01
author:金鞍少年
date:2020-03-22
'''
from bs4 import BeautifulSoup
import requests
import json
class biedoul:
def __init__(self, url,count):
self.url = url
self.count = int(count)
self.path = r'./别逗了笑话网/index'
self.headers=