小白大四生,虽然是计算机专业,但是对学的几门编程语言缘分不深,然后自学了python。(这是我后来补得,因为我发现我写的太笼统了并不适合给新手看,对不起!所以希望大家轻点喷,后面我会从特别特别特别详细写的,这个只是个思路吧)
好吧,发这个文章的主要目的是过两天要去面试爬虫实习生的岗位了,借着第一次发文章,写了个小爬虫,复习复习。下面进入正题。。。
首先,肯定是安装scrapy的框架,pip install scrapy。。。简单粗暴。
然后,IDE用的pychram。(就简单说scrapy的应用吧,详细的下次写或者需要的老哥给我发消息什么的,有求必应!)
开始正题!!!!!!!!1、首先创建一个爬虫项目:scrapy startproject doubanmovie #doubanmovie 是项目的名称,创建完应该是这样一个结构 :2、进入doubanmovie文件夹,用:scrapy genspider xxx ‘http://xxx.com’然后自动在spiders文件里生成一个爬虫主程序的文件:上边的命令把 xxx 写成 douban 就会生成一个douban.py3、分析思路,先分析要爬取的网页,(本文通过xpath进行解析),获取想要的内容。比如在豆瓣电影Top250这里,获取《肖申克的救赎》电影名,可以通过xpath进行一系列解析,推荐谷歌浏览器的xpath-helper工具帮助