我试图抓取一个网页,要求我通过一个URL/链接访问网站(有点像一个登录链接),但我需要循环另一个URL通过该链接,以刮除个别网页。我知道如何抓取单个网页,我只是从来没有循环URL到另一个URL,以获得对一个网站的访问。
from bs4 import BeautifulSoup as soup
from urllib.request import urlopen as uReq
import pyfpdf
import time
import random
timeDelay = random.randrange(5, 10)
my_url = 'http://shops3.directedje.com/JACK/product-listing.asp?CID=2065'
uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html, "html.parser")
for a in soup.find_all('a', href=True):
print ("href")
这是我需要访问的链接: thermofisher.com/DCG
。