1.搜索一段爬虫代码复制到python中加入一段代码
# 定义sql语句
sql = 'insert into douban_data values ("%s","%s","%s","%s","%s","%s","%s")' % ("num", "name", "pingfem", "mingju", "mingju", "mingju", "mingju") #将后面括号里改为对应字段
cursor.execute(sql) # 执行语句
db.commit()
2、代码最后加入以下代码
# 定义数据库
# host:地址 potr:端口 user:用户名 password:密码 db:数据库名 charset:编码
db = pymysql.connect(host="localhost", port=3306, user="root", password="123456", db="douban", charset="utf8")
cursor = db.cursor() #创建游标
需要输入自己的端口和密码
3、运行得到
4、想获得更多数据
换掉Cookie码
cookie码需要去原网页
*右键打开检查
*点网络处
*ctrl+R刷新纪录,复制cookie码
操作详情可看:浏览器提取和输入网页cookies的方法 - 洪雨 - 博客园 (cnblogs.com)
5、连接数据库
#orient = 'records', 表示将DateFrame的数据转换成我想要的json格式
data_json = df.to_dict(orient='records')
for dt in data_json:
print(dt)
sql = 'insert into douban_data values ("%s","%s","%s","%s","%s","%s","%s")' % (dt['页码'], dt['评论者昵称'], dt['评论星级'], dt['评论时间'], dt['评论者IP属地'], dt['有用数'],dt['评论内容'])
cursor.execute(sql) # 执行语句
db.commit()
6、创建数据表
改掉代码中charset="utf8mb4"与navicat对应
最大爬取页为1
7、运行代码,表格自动填写