python scrapy安装及简单运用

最新推荐文章于 2024-07-07 22:25:52 发布

王先生Smile1

最新推荐文章于 2024-07-07 22:25:52 发布

阅读量452

点赞数 1

分类专栏： scrapy 文章标签： python

本文链接：https://blog.csdn.net/qq5632281/article/details/106093591

版权

scrapy 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本机环境是window10环境，直接在命令行安装

一、首先安装python环境、我安装python3.7.7

链接：https://pan.baidu.com/s/1khGpx1vIn22nijuIkY2r8Q
提取码：nt52
一路next就可以

二、安装scrapy

命令行执行命令pip install scrapy
由于是国外镜像，可能下载途中超时
参考：https://www.cnblogs.com/bigb/p/12146418.html
pip下载国内镜像

安装如果错误也可以参考：https://blog.csdn.net/fire_lch316/article/details/102890144
是否是你的错误
如果安装成功，命令行最后会显示
在这里插入图片描述

三、安装python编译器 pycharm

链接：https://pan.baidu.com/s/1s23fNcqDhR3v2BNn9mRBKg
提取码：vtf4

四、scrapy框架的使用

bilibili上面有很多教程

1、创建爬虫项目

命令行输入：scrapy startproject hanzida

2、创建爬虫文件

进入到创建的爬虫项目目录下执行命令：
scrapy genspider hanyuSpider hanyu.baidu.com
hanyuSpider是你的文件名字，不要与项目名字重名
'hanyu.baidu.com’是你要爬取的网站域名
在这里插入图片描述
在项目下就创建了爬虫文件

如果你是新项目的话，spiders下面就两个文件
_init.py、hanyuSpider.py （其它文件是我之前创建的）

3、在hanyuSpider.py里面写你的爬虫逻辑

我以百度汉语一个网页为例子

爬取好字的基本释义，查看网页源代码
在这里插入图片描述
代码

# -*- coding: utf-8 -*-
import scrapy


class HanyuspiderSpider(scrapy.Spider):
    name = 'hanyuSpider'
    allowed_domains = ['hanyu.baidu.com']
    start_urls = ['https://dict.baidu.com/s?wd=好&from=poem']

    def parse(self, response):
        selectors = response.xpath('//div[@id="basicmean-wrapper"]/div/dl')
        if selectors is not None:
            for selector in selectors:
                select = selector.xpath('./dd//p')
                for sele in select:
                    ss = sele.xpath('./text()').get()
                    print(ss)

start_urls是我们爬取的起始网页
response是响应结果，我们采用xpath方法
xpath语法可以参考：https://blog.csdn.net/Chengf_/article/details/90299752
我们分析网站源代码发现，基本释义p标签内容，通过层级关系匹配出来
代码附上了，需要大家仔细琢磨下，不懂的欢迎留言区讨论

4、运行爬虫文件

scrapy crawl hanyuSpider（你的爬虫文件名字）
在这里插入图片描述
可以看到p标签里面的基本释义取出来了。

解释：本文参考了一些文章和爬取了百度汉语网页，如果侵权的欢迎留言，本人删除即可

王先生Smile1

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python scrapy安装及简单运用

本机环境是window10环境，直接在命令行安装一、首先安装python环境、我安装python3.7.7链接：https://pan.baidu.com/s/1khGpx1vIn22nijuIkY2r8Q提取码：nt52一路next就可以二、安装scrapy命令行执行命令pip install scrapy由于是国外镜像，可能下载途中超时参考：https://www.cnblogs.com/bigb/p/12146418.htmlpip下载国内镜像安装如果错误也可以参考：https:/
复制链接

扫一扫

专栏目录