Django+python+BeautifulSoup组合的垂直搜索爬虫

本文介绍了如何结合Python的BeautifulSoup库和Django框架创建一个垂直搜索爬虫。首先,通过Django建立模型和管理后台,用于管理爬取的URL。接着,编写爬虫代码,按照抓取深度进行单线程抓取,并利用正则表达式筛选和解析电影数据。最后,解析页面,提取电影的标题、图片、简介、演员和标签等信息,并将数据保存到数据库。
摘要由CSDN通过智能技术生成

使用python+BeautifulSoup完成爬虫抓取特定数据的工作,并使用Django搭建一个管理平台,用来协调抓取工作。

因为自己很喜欢Django admin后台,所以这次用这个后台对抓取到的链接进行管理,使我的爬虫可以应对各种后期的需求。比如分时段抓取,定期的对已经抓取的地址重新抓取。数据库是用python自带的sqlite3,所以很方便。

 

这几天正好在做一个电影推荐系统,需要些电影数据。本文的例子是对豆瓣电影抓取特定的数据。

 

第一步:建立Django模型


模仿nutch的爬虫思路,这里简化了。每次抓取任务开始先从数据库里找到未保存的(is_save = False)的链接,放到抓取链表里。你也可以根据自己的需求去过滤链接。

 

python代码:

 

然后生成相应的表。

 

还需要一个admin管理后台

 

 

 

 

第二步,编写爬虫代码

 

爬虫是单线程,并且每次抓取后都有相应的暂定,

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 8
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值