文章目录
前言
1.本编文章为毕设所著,所作内容不用于任何商业用途,爬虫所获取内容均用于个人设计
2.本文基于上一篇文章为前提,详情转:爬取京东笔记本电脑销量榜每件商品详情页url,并存入云服务器中的mysql库
3.目前多线程改进版已完成,请移步至:
(多线程优化版)爬虫爬取京东商品详细数据(品牌、售价、各类评论量(精确数量)、热评词及数量等) json解析部分数据
一、数据保存格式设置及数据库准备(CentOS云mysql数据库)
1、分析数据需求(单一商品为例)
此为所获取到的上商品url中的第一件商品的详情页
通过观察网页,初步确定数据需求为:
商品名称(product_name)
、品牌(product_brand)
、价格(product_price)
、总评论数(total_comment_num)
、好评数(good_comment_num)
、好评率(good_percent_com)
、差评数(bad_comment_num)
、差评率(bad_percent_com)
、评论标签及数量(dict_icon)
,共计9项。(后续网页分析后添加项:价格分为三项(最高价格(product_m_price)
、当前价格(product_price)
、指导价格(product_o_price)
)),合计11项。
2、数据库保存格式
继爬取到的数据继续存入上一文章保存url库中,增加字段,更新行数据。
结果示例:
3、用到的数据库操作及指令
1、说明:创建数据库
CREATE DATABASE database-name
2、说明:删除数据库
drop database dbname
3、说明:备份sql server
--- 创建 备份数据的 device
USE master
EXEC sp_addumpdevice 'disk', 'testBack', 'c:\mssql7backup\MyNwind_1.dat'
--- 开始 备份
BACKUP DATABASE pubs TO testBack
4、说明:创建新表
create table tabname(col1 type1 [not null] [primary key],col2 type2 [not null],..)
根据已有的表创建新表:
A:create table tab_new like tab_old (使用旧表创建新表)
B:create table tab_new as select col1,col2… from tab_old definition only
5、说明:删除新表
drop table tabname
6、说明:增加一个列
Alter table tabname add column col type
注:列增加后将不能删除。DB2中列加上后数据类型也不能改变,唯一能改变的是增加varchar类型的长度。
7、说明:添加主键: Alter table tabname add primary key(col)
说明:删除主键: Alter table tabname drop primary key(col)
8、说明:创建索引:create [unique] index idxname on tabname(col….)
删除索引:drop index idxname
注:索引是不可更改的,想更改必须删除重新建。
9、说明:创建视图:create view viewname as select statement
删除视图:drop view viewname
10、说明:几个简单的基本的sql语句
选择:select * from table1 where 范围
插入:insert into table1(field1,field2) values(value1,value2)
删除:delete