scrapy爬虫基础

生成文件夹在cmd中运行scrapy startproject doubantest(后跟文件夹名字)遇到的问题:跟视频中不一样,豆瓣电影top250加了反爬虫机制,解决办法是在settings.py中加入agent,方法参见百度经验:如何用pycharm编写scrapy项目:[8]user-agent:https://jingyan.baidu.com/article/e52e36151bdf2...
摘要由CSDN通过智能技术生成

生成文件夹在cmd中运行scrapy startproject doubantest(后跟文件夹名字)

遇到的问题:跟视频中不一样,豆瓣电影top250加了反爬虫机制,解决办法是在settings.py中加入agent,方法参见百度经验:如何用pycharm编写scrapy项目:[8]user-agent:

https://jingyan.baidu.com/article/e52e36151bdf2640c60c513f.html

xxx\doubantest\main.py(新建)

#encoding=utf-8
from scrapy import cmdline
cmdline.execute("scrapy crawl doubanTest".split())
#使用scrapy里面负责执行Windows命令的一个类,执行scrapy crawl doubanTest,这个命令是爬虫运行,这与
# 平常的python程序不一样,之前运行程序是使用python,然后是这个程序的名字,

xxx\doubantest\doubantest\spiders\spider.py(新建)

#encoding=utf-8
#-*- coding:utf-8 -*-

#scrapy生成一个project,然后爬取网页
# from scrapy.contrib.spiders import CrawlSpider
from scrapy.spiders import CrawlSpider

######User-Agent要加在settings.py文件中

# hea = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
# hea = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'}
# User-Agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'

# USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'

# #让网站认为浏览器在访问
# html = requests.get('http://jp.tingroom.com/yuedu/yd300p/',headers = hea)

class Douban(CrawlSpider):
    name = "doubanTest"
    start_urls = ['https://movie.douban.com/top250']
    # start_urls = ['http://www.jikexueyuan.com/course/?pageNum=1']

    def parse(self,response):
        print response.body
        # print response.url
        # a = response.url
        # b = 1

(生成的)settings.py加上

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值