python用scrapy爬虫豆瓣_python爬虫,用Scrapy爬取豆瓣Top250,存入MySQL

小白大四生,虽然是计算机专业,但是对学的几门编程语言缘分不深,然后自学了python。(这是我后来补得,因为我发现我写的太笼统了并不适合给新手看,对不起!所以希望大家轻点喷,后面我会从特别特别特别详细写的,这个只是个思路吧)

好吧,发这个文章的主要目的是过两天要去面试爬虫实习生的岗位了,借着第一次发文章,写了个小爬虫,复习复习。下面进入正题。。。

首先,肯定是安装scrapy的框架,pip install scrapy。。。简单粗暴。

然后,IDE用的pychram。(就简单说scrapy的应用吧,详细的下次写或者需要的老哥给我发消息什么的,有求必应!)

开始正题!!!!!!!!1、首先创建一个爬虫项目:scrapy startproject doubanmovie #doubanmovie 是项目的名称,创建完应该是这样一个结构 :2、进入doubanmovie文件夹,用:scrapy genspider xxx ‘http://xxx.com’然后自动在spiders文件里生成一个爬虫主程序的文件:上边的命令把 xxx 写成 douban 就会生成一个douban.py3、分析思路,先分析要爬取的网页,(本文通过xpath进行解析),获取想要的内容。比如在豆瓣电影Top250这里,获取《肖申克的救赎》电影名,可以通过xpath进行一系列解析,推荐谷歌浏览器的xpath-helper工具帮助

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值