简单团队-爬虫豆瓣top250-项目总结

代码部分截图:

1.

2.

 

3.

运行后效果完成图:

4.

 

5.

6.数据库:

 

代码托管平台: https://gitee.com/w789369/PaChong/blob/master/test.py

1. 豆瓣抓站流程

  1. 分析url特征
  2. 对需要抓取的数据设计正则表达式
  3. 处理HTML中一些特征字符,换行符等

2. 实现的功能

简单的实现了抓取豆瓣电影Top100的电影名称

3. 后期工作展望

  • 抓取更多的有用数据(如:准确抓取导演, 抓取一个电影评论)
  • 使用多线程爬虫
  • 学习第三方的爬虫框架(Scrapy)
  • 深入理解HTML编码和文本处理

 

 关于爬取豆瓣电影项目想说下自己的感受与理解,首先来说是很实用的因为我们总会有想看电影放松一下,但是不知道该看什么的时候。所以,这时候爬取别人都喜欢的评分高的口碑好的这样一个软件就显得无比重要了。所以这个程序还是有存在的必要的。

转载于:https://www.cnblogs.com/jiandan12138/p/7944487.html

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值