python 爬虫

做一个简易的爬虫软件

1 项目简介:

本项目利用了python的一个程序脚本去抓取一些网络上的数据,并且可以将爬取到的数据存入本地的数据库中,然后将数据库里的数据读取出来并且做成一个可以直观看到数据和变化的图表。

1.1 本文博客地址:

https://editor.csdn.net/md?articleId=103560331

1.2 简述项目的要完成的功能与特色

本项目主要爬取某电影网站的电影和电影的类型,一次抓取十个信息。
在这里插入图片描述
然后判断每种电影类别的个数在这里插入图片描述
之后再存取到数据库中
在这里插入图片描述
最后通过以饼图的形式呈现出来
在这里插入图片描述

1.3 项目采取的技术栈

requests库:
Requests 是⽤Python语⾔编写,基于urllib,采⽤Apache2 Licensed开源协议的 HTTP 库。它⽐ urllib 更加⽅便,可以节约我们⼤量的⼯作,完全满⾜HTTP测试需求

xml.etree:
一个解析模块 简洁 高效 明了
ElementTree轻量级的 Python 式的 API

pymysql:
为了使python连接上数据库,你需要一个驱动,这个驱动是用于与数据库交互的库

pyecharts:
pyecharts 是一个用于生成 Echarts 图表的类库,echarts 是百度开源的一个数据可视化 JS 库,主要用于数据可视化。pyecharts 是一个用于生成 Echarts 图表的类库。实际上就是 Echarts 与 Python 的对接。

1.4 项目借鉴源代码的github地址或博客地址:

1.https://www.jianshu.com/p/486869f23959
2.https://www.cnblogs.com/adam012019/p/11395666.html
3.https://www.2cto.com/database/201809/780577.html

2.前期调查与需求分析

影视文化学是20世纪人类科技发展的新成果。影视文化由于建立在这样一个前提背景之上,而拥有了许多迥异于传统文化形态、品种的特殊性、复杂性与丰富性。所以要了解当今人们对喜爱看的电影的类别做一个简单的分析。

3.项目功能架构图、主要功能流程图

功能结构图
在这里插入图片描述
程序流程图
在这里插入图片描述

4 系统模块说明

爬取模块:配置界面,分析要爬取的页面,并进行数据爬取

连接数据库模块:配置数据库(打开游标,操作数据库,关闭游标)

图形模块:接收从数据库返回的数据并且分析生成图表

5.项目总结

(1)要从需求出发去设计项目
(2)一开始不要去爬大网站会有反爬虫机制导致IP拉入黑名单
(3)注意pyechats的版本变化

6.系统不足与可改进的地方

(1)没有加入任何的反反爬虫措施
(2)爬取的数据不够完整、
(3)还有很多功能没有完善

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值