动态HTML页面数据的获取可以使用request库得到服务器发送来的数据,但是京东商品评论包含全部评论、好评、中评、差评等。这里是用Selenium模拟点击转到相应的页面来获取页面内容,具体分为以下几个步骤:
1.得到商品页面链接,这里我们爬取Kindle: [https://item.jd.com/100000667370.html]
2. 等所有元素加载出,点击“商品评价”按钮,点击“好评“按钮
3. 等待页面加载完成,获取Html文档内容,当前页面好评的所有评论位置是"div", id=“comment-4"标签下所有的"div”,class_="comment-item"标签
4. 将内容写入EXCEL,这里进行文件是否存在的判断,进行文件创建或追加的,同时写入每一条数据的类型(好评还是差评)和字数。
5. 差评同理
完整代码
from bs4 import BeautifulSoup
import requests
import re
from selenium import webdriver
from bs4 import BeautifulSoup
import xlwt
import xlrd
import os
from xlutils.copy import copy
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expe