##Python3 爬取今日头条(模拟ajax请求)
注:本文是跟据博主崔庆才的博客来写的,不单单是思路值得学习,还有代码规范更值得去学习。路漫漫其修远兮,吾将上下而求索。
参考链接:单击跳转
崔庆才的个人博客
新建一个config.py文件,如下
MONGO_URL = 'localhost'
MONGO_DB = 'toutiao'
MONGO_TABLE = 'toutiao'
GROUP_START = 1
GROUP_END = 20
KEYWORD = '街拍'
然后创建一个spider.py文件,内容如下:
import requests
from urllib.parse import urlencode
from requests import RequestException
import json
from json import JSONDecodeError
from bs4 import BeautifulSoup
import re,os
import pymongo
from config import * #导入之前创建的config.py文件
from hashlib import md5
from multiprocessing import Pool
client = pymongo.MongoClient(MONGO_URL ,connect=False)
db = client[MONGO_DB]
#获取首页Json数据,记为1
def get_page_index(offset, keyword):
data = {
'offset': offset,
'format': 'json',
'keyword': keyword,
'autoload': 'true',
'count': '20',
'cur_tab': '3',
'from': 'gallery'
}
headers = {
'User-Agent'