说明
数据来源kaggle数据,为某商城部分玩具商品数据
提出问题在该商城最受欢迎的玩具是什么?
什么品牌最受欢迎?
各个分类的玩具商品的价格分布情况是什么样的?
理解数据
数据存储在mysql中,表名是toy_products_on_amazon
查看表信息
show columns from toy_products_amazon
数据表共有9列,所有的列都以文本格式进行存储,其中uniq_id是主键,其余的列含义也较为清晰,从列名就可得知。除主键外其余的列都可能存在空值,这在清洗数据时需要注意。
查看数据条数
select count(*) from toy_products_amazon
再来看每列具体的内容,查看头10条信息
select * from toy_products_amazon limit 10
product_name: 含空格的字符串
manufacturer:含空格的字符串,含有未知的生产商
price:非纯数字,带有货币符号,含有空值
number_available_in_stock:库存数 同时代有新品/二手的标识,含有空值
number_of_reviews:浏览情况,纯数字
number_of_answered_questions:有多少用户提问被回答,纯数字
average_review_rating