测试网站:https://d.qianzhan.com/xdata/list/xfyyy0yyIxPyywyy2xDxfd.html
数据的储存要求:储存的数据能看出父子关系
思路:因为该网站数据是层层打开的,使用递归不断请求。需要额外储存一些数据来区分数据的层次以及关系。例子:假设a数据id为1,则在a数据的子数据的p_id就都用a的id 1.
代码如下:
from pymongo import MongoClient
import requests
from lxml import etree
from Ip_and_Agent.ip_and_Agent import User_Agent,Inland_ip
con=MongoClient("localhost",27017)
db=con.Runoob
my_set=db.qianzhan_set6
#get_html()方法封装的是requests请求,里面的Inland_ip是我随机取出单独封装的国内ip,User_Agent()是随机表头
def get_html(url):
req=requests.get(url,proxies={"http":Inland_ip},headers={"User_Agent":User_Agent})
# print(req.text)
return req.text
#从存入到mongodb的数据中取出,取出后修改状态
def get_key():
ge