Scrapy学习1

最新推荐文章于 2024-08-24 11:00:49 发布

野人出山

最新推荐文章于 2024-08-24 11:00:49 发布

阅读量113

点赞数

分类专栏：学习文章标签： python django

本文链接：https://blog.csdn.net/gfwt1990/article/details/106920235

版权

学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Scrapy学习1

一、创建项目

cmd中代码
scrapy startproject xxxxSpider（项目名）

二、创建爬虫

#切换目录
cd xxxxSpider
#创建爬虫
scrapy genspider xxxx（爬虫名） xxxx.com（网站域名）
注意：项目名和爬虫名不同

1、配置settings.py

#不遵守君子协议
#Obey robots.txt rules
ROBOTSTXT_OBEY = False

2、解释spiders/xxxx.py

# -*- coding: utf-8 -*-
import scrapy

#创建爬虫类 并继承自scrapy.Spider -->最基础的类
class XicidailiSpider(scrapy.Spider):
    name = 'xicidaili'
    allowed_domains = ['xicidaili.com']
    start_urls = ['http://xicidaili.com/']

    #解析响应数据 提取数据或网址 response是网页源码
    def parse(self, response):
        pass

三、分析网站

提取数据
正则表达式
XPath
CSS

response.xpath('//tr')。get()

get(）得到一个元素
getall()得到多个元素

四、运行爬虫

scrapy crawl xxxx

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

野人出山

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Scrapy学习1

Scrapy学习1一、创建项目cmd中代码scrapy startproject xxxxSpider（项目名）二、创建爬虫#切换目录cd xxxxSpider#创建爬虫scrapy genspider xxxx（爬虫名） xxxx.com（网站域名）注意：项目名和爬虫名不同1、配置settings.py#不遵守君子协议#Obey robots.txt rulesROBOTSTXT_OBEY = False2、解释spiders/xxxx.py# -*- coding: utf
复制链接

扫一扫