在爬取了网易云歌单之后,在网上找各种爬虫实战,然后就觉得这个简单一点,然后就开始了我的懵逼之路。这个代码只是爬取搜索出来的信息的第一页,后续会学习爬取下一页,还有添加京东首页搜索能力,现在就先写着第一页,大佬看一下:
import requests
import re
from bs4 import BeautifulSoup
from selenium import webdriver
from openpyxl import workbook
import time
#创建wb对象,用于将信息存入Excel表
wb = workbook.Workbook()
ws = wb.active
#先存入第一行
ws.append(['商品名称','商品价格'])
#使用selenium模块,模拟浏览器访问网页,获取所有的源代码
url = 'https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&wq=%E6%89%8B%E6%9C%BA&pvid=d6c4c2602be049be8b4fe6129f72f6ef'
chromedriver = "/home/l1/PycharmProjects/untitled/spider练习/chromedriver"
driver = webdriver.Chrome(chromedriver)
driver.implicitly_wait(3)
driver.get(url)
#模拟鼠标下拉到底部
for i in range(1,5):
driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")
time.sl