首先,我们要知道孔夫子旧书网的属于动态网址,也就是说我们无法从html中直接获取信息。
我们要采用从网站文件里获取信息。在店铺的网站点击检查然后找到对应的店铺评论的文件。
图片里的文件就是这个店铺的评论信息。然后找到这个文件对应的url
就可以获取到这个评论信息了。
我们获取到的这个文件是个json文件所以要提取json文件里的内容我们需要安装一个json的模块。Python中自带json的模块。
安装好之后就可以提取里边的内容了
以下就是保存的方法
然后写入数据库中。
import json
import pymysql
import urllib.request
conn = pymysql.connect(host='localhost',
user='root',
database='r_l',
password='123456789',
charset='