python 爬虫

最新推荐文章于 2022-03-13 11:41:27 发布

aballoona

最新推荐文章于 2022-03-13 11:41:27 发布

阅读量130

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aballoona/article/details/103560331

版权

做一个简易的爬虫软件

一

1 项目简介：

本项目利用了python的一个程序脚本去抓取一些网络上的数据，并且可以将爬取到的数据存入本地的数据库中，然后将数据库里的数据读取出来并且做成一个可以直观看到数据和变化的图表。

1.1 本文博客地址：

https://editor.csdn.net/md?articleId=103560331

1.2 简述项目的要完成的功能与特色

本项目主要爬取某电影网站的电影和电影的类型，一次抓取十个信息。
在这里插入图片描述
然后判断每种电影类别的个数
之后再存取到数据库中

最后通过以饼图的形式呈现出来

1.3 项目采取的技术栈

requests库：
Requests 是⽤Python语⾔编写，基于urllib，采⽤Apache2 Licensed开源协议的 HTTP 库。它⽐ urllib 更加⽅便，可以节约我们⼤量的⼯作，完全满⾜HTTP测试需求

xml.etree:
一个解析模块简洁高效明了
ElementTree轻量级的 Python 式的 API

pymysql：
为了使python连接上数据库，你需要一个驱动，这个驱动是用于与数据库交互的库

pyecharts：
pyecharts 是一个用于生成 Echarts 图表的类库，echarts 是百度开源的一个数据可视化 JS 库，主要用于数据可视化。pyecharts 是一个用于生成 Echarts 图表的类库。实际上就是 Echarts 与 Python 的对接。

1.4 项目借鉴源代码的github地址或博客地址：

1.https://www.jianshu.com/p/486869f23959
2.https://www.cnblogs.com/adam012019/p/11395666.html
3.https://www.2cto.com/database/201809/780577.html

2.前期调查与需求分析

影视文化学是20世纪人类科技发展的新成果。影视文化由于建立在这样一个前提背景之上，而拥有了许多迥异于传统文化形态、品种的特殊性、复杂性与丰富性。所以要了解当今人们对喜爱看的电影的类别做一个简单的分析。

3.项目功能架构图、主要功能流程图

功能结构图
在这里插入图片描述
程序流程图

4 系统模块说明

爬取模块：配置界面，分析要爬取的页面，并进行数据爬取

连接数据库模块：配置数据库（打开游标，操作数据库，关闭游标）

图形模块：接收从数据库返回的数据并且分析生成图表

5.项目总结

（1）要从需求出发去设计项目
（2）一开始不要去爬大网站会有反爬虫机制导致IP拉入黑名单
（3）注意pyechats的版本变化

6.系统不足与可改进的地方

（1）没有加入任何的反反爬虫措施
（2）爬取的数据不够完整、
（3）还有很多功能没有完善

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

aballoona CSDN认证博客专家 CSDN认证企业博客

码龄5年

1: 原创

126万+: 周排名

89万+: 总排名

144: 访问

: 等级

10: 积分

0: 粉丝

0: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

python 爬虫 130

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。