平安实习—scrapy爬虫框架入门

学习笔记
'''
# 1、创建项目
scrapy startproject + 项目名称


# 2、进入项目中
cd 项目名称


# 3、创建爬虫
scrapy genspider + 爬虫名称 + 域名


# 4、scrapy 实例

# 4.1 配制settings文件
ROBOTSTXT_OBEY = False
添加请求头
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36",

# 4.2 配制启动文件(start.py)
from scrapy import cmdline
方法一
cmdline.execute("scrapy crawl qsbk_spider".split())
方法二
cmdline.execute(["scrapy", "crawl", "qsbk_spider"])

# 4.3 指定爬取的第一页
start_urls = ['https://www.qiushibaike.com/text/page/1/']

# 4.4 指定解析方法与规则
    def parse(self, response):
        divs = response.xpath("//div[@class='col1 old-style-col1']/div")
        for div in divs:
            author = div.xpath(".//a/h2/text()").get().strip()
            content = div.xpath(".//div[@class='content']//text()").getall()
            content = "".join(content).strip()
            print(author)
            print(content)

'''

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值