做一个简易的爬虫软件
一
1 项目简介:
本项目利用了python的一个程序脚本去抓取一些网络上的数据,并且可以将爬取到的数据存入本地的数据库中,然后将数据库里的数据读取出来并且做成一个可以直观看到数据和变化的图表。
1.1 本文博客地址:
https://editor.csdn.net/md?articleId=103560331
1.2 简述项目的要完成的功能与特色
本项目主要爬取某电影网站的电影和电影的类型,一次抓取十个信息。
然后判断每种电影类别的个数
之后再存取到数据库中
最后通过以饼图的形式呈现出来
1.3 项目采取的技术栈
requests库:
Requests 是⽤Python语⾔编写,基于urllib,采⽤Apache2 Licensed开源协议的 HTTP 库。它⽐ urllib 更加⽅便,可以节约我们⼤量的⼯作,完全满⾜HTTP测试需求
xml.etree:
一个解析模块 简洁 高效 明了
ElementTree轻量级的 Python 式的 API
pymysql:
为了使python连接上数据库,你需要一个驱动,这个驱动是用于与数据库交互的库
pyecharts:
pyecharts 是一个用于生成 Echarts 图表的类库,echarts 是百度开源的一个数据可视化 JS 库,主要用于数据可视化。pyecharts 是一个用于生成 Echarts 图表的类库。实际上就是 Echarts 与 Python 的对接。
1.4 项目借鉴源代码的github地址或博客地址:
1.https://www.jianshu.com/p/486869f23959
2.https://www.cnblogs.com/adam012019/p/11395666.html
3.https://www.2cto.com/database/201809/780577.html
2.前期调查与需求分析
影视文化学是20世纪人类科技发展的新成果。影视文化由于建立在这样一个前提背景之上,而拥有了许多迥异于传统文化形态、品种的特殊性、复杂性与丰富性。所以要了解当今人们对喜爱看的电影的类别做一个简单的分析。
3.项目功能架构图、主要功能流程图
功能结构图
程序流程图
4 系统模块说明
爬取模块:配置界面,分析要爬取的页面,并进行数据爬取
连接数据库模块:配置数据库(打开游标,操作数据库,关闭游标)
图形模块:接收从数据库返回的数据并且分析生成图表
5.项目总结
(1)要从需求出发去设计项目
(2)一开始不要去爬大网站会有反爬虫机制导致IP拉入黑名单
(3)注意pyechats的版本变化
6.系统不足与可改进的地方
(1)没有加入任何的反反爬虫措施
(2)爬取的数据不够完整、
(3)还有很多功能没有完善