包含内容:文档+源代码+爬虫数据+爬虫代码+
演示视频
演示-当当网图书分析挖掘
数据集
- 爬取当当网的图书销售数据
技术栈
- Flask:用于构建Web应用程序。
- MySQL:用于存储和管理爬取到的图书数据。
- Echarts:用于可视化数据分析结果。
数据分析维度
在数据的分析部分,主要分为四个维度,分别是类型、出版社、作者、出版时间,分别分析不同维度的平均价格和平均评论人数,分析不同维度下平均价格和平均评论人数之间的关系,从而让用户直观地看出数据的潜在内容。
摘要
随着网络技术的极速发展,互联网已成为人们搜集数据和提供数据的重要途径并逐步变成人们至关重要的一部分。在如今的日常生活中,网上购物对于我们已经形影不离,逐渐变成为我们不可或缺的一种必需品。网上购书市场也逐渐进入了人们的视野。在网上购物进入人们的家庭,便利了人们的衣食住行的同时,一个迫在眉睫并且不易解决的难题摆在我们眼前:现今互联网的结构日趋复杂,消费者时常在大量的产品信息空间中迷失,并且不能成功找到需要的产品。所以如何从爆炸性的海量数据中提取出我们需要的数据,搜索引擎的使用便成为了每一位用户的必然选择。
本次研究而通过大数据技术,可以帮助用户来解决数据过载这一问题,以当当网图书数据为例,通过将当当图书的销售数据进行爬取,并进行存储,将这些数据通过Python技术进行分析,将分析结果通过可视化的形式只能是出来,试图发现不同特征数据之间的关联性,从而让用户能够直观的看出当当网图书数据的整体数据特征。本次研究主要从图书类型、图书出版社、图书作者、图书出版时间等四个维度出发,分析不同维度之下图书价格和图书评论人数的关系,得出分析结论。通过此次分析,能够挖掘出图书数据的深层信息,可以让商家更好的了解什么图书受欢迎而且价格高,同时也可以为需要购买图书的用户提供参考。
创新点
本项目的创新点在于,在对数据进行分析的基础上,加入了聚类算法。通过聚类算法,对不同的图书进行聚类,并且对聚类结果进行绘图,查看不同类别的特征。这样,用户可以更深入地了解图书之间的相似性和差异性,为他们提供更多有关图书的信息和选择建议。