我们要爬取的信息是这些电影的名称,电影相关信息,评分,以及一句话的名言。
这些信息就在网页的主体部分,使用xpath结合chrome的元素定位能很容易的提取到我们想要的信息。
接下来就是使用scrapy框架来编写我们的爬虫了。
在pycharm中,打开setting.py文件,添加一下内容
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) ' \
'Chrome/14.0.835.163 Safari/535.1'
FEED_URI = 'file:///E:/douban/result/douban.csv'
FEED_FORMAT = 'CSV'
user_agent是浏览器的标识,我们使用这个标识伪装我们的爬虫。然而豆瓣实际上并不会阻止爬虫爬取,并且它也是有自己的爬虫访问接口的。
下面的两个参数表示我们要把爬取的数据写入一个csv文件中,文件的地址是
file:///E:/douban/result/douban.csv
然后打开items.py文件,写入以下内容:
from scrapy import Item, Field
class DoubanItem(Item):
# define the fields for your item here like:
# name