刚学完爬虫基础,由于这是没有学习框架时候的代码,可能会显得有些啰嗦,不过里边有很多自己的想法,可以参考并提出意见.
由于当时写的比较匆忙,没有用到面向对象的思想去编写代码,所以这里只是用到了函数
import json
import os
import re
import urllib.request
import time
from pprint import pprint
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import urllib.parse
#这里由于爬取的小说网站内容是js加载的,所以我采用selenium模拟浏览器的方法
def gethtml(url):
chrome_options = Options()
chrome_options.add_argument(’–headless’)
chrome_options.add_argument(’–disable-gpu’)
path = r'E:\pycharm\课件\chromedriver_win32\chromedriver.exe'
driver = webdriver.Chrome(executable_path=path,chrome_options=chrome_options)
url = url
driver.get(url)
time.sleep(7)
# pprint(driver.page_source)
return driver.page_source
def set_request(url):
headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows