简单团队-爬虫豆瓣top250-项目总结

最新推荐文章于 2021-08-09 09:50:57 发布

weixin_34216196

最新推荐文章于 2021-08-09 09:50:57 发布

阅读量322

点赞数 1

文章标签：爬虫数据库 python

原文链接：http://www.cnblogs.com/jiandan12138/p/7944487.html

版权

代码部分截图：

1.

2.

3.

运行后效果完成图：

4.

5.

6.数据库：

代码托管平台： https://gitee.com/w789369/PaChong/blob/master/test.py

1. 豆瓣抓站流程

分析url特征
对需要抓取的数据设计正则表达式
处理HTML中一些特征字符,换行符等

2. 实现的功能

简单的实现了抓取豆瓣电影Top100的电影名称

3. 后期工作展望

抓取更多的有用数据(如:准确抓取导演, 抓取一个电影评论)
使用多线程爬虫
学习第三方的爬虫框架(Scrapy)
深入理解HTML编码和文本处理

关于爬取豆瓣电影项目想说下自己的感受与理解，首先来说是很实用的因为我们总会有想看电影放松一下，但是不知道该看什么的时候。所以，这时候爬取别人都喜欢的评分高的口碑好的这样一个软件就显得无比重要了。所以这个程序还是有存在的必要的。

转载于:https://www.cnblogs.com/jiandan12138/p/7944487.html

weixin_34216196

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
简单团队-爬虫豆瓣top250-项目总结

代码部分截图：1.2.3.运行后效果完成图：4.5.6.数据库：代码托管平台： https://gitee.com/w789369/PaChong/blob/master/test.py1. 豆瓣抓站流程分析url特征对需要抓取的数据设计正则表达式处理HTML中一些特征字符,换行符等2. 实现的功...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。