python scrapy安装及简单运用

本机环境是window10环境,直接在命令行安装

一、首先安装python环境、我安装python3.7.7

链接:https://pan.baidu.com/s/1khGpx1vIn22nijuIkY2r8Q
提取码:nt52
一路next就可以

二、安装scrapy

命令行执行命令pip install scrapy
由于是国外镜像,可能下载途中超时
参考:https://www.cnblogs.com/bigb/p/12146418.html
pip下载国内镜像

安装如果错误也可以参考:https://blog.csdn.net/fire_lch316/article/details/102890144
是否是你的错误
如果安装成功,命令行最后会显示
在这里插入图片描述

三、安装python编译器 pycharm

链接:https://pan.baidu.com/s/1s23fNcqDhR3v2BNn9mRBKg
提取码:vtf4

四、scrapy框架的使用

bilibili上面有很多教程

1、创建爬虫项目

命令行输入:scrapy startproject hanzida

2、创建爬虫文件

进入到创建的爬虫项目目录下执行命令:
scrapy genspider hanyuSpider hanyu.baidu.com
hanyuSpider是你的文件名字,不要与项目名字重名
'hanyu.baidu.com’是你要爬取的网站域名
在这里插入图片描述
在项目下就创建了爬虫文件
在这里插入图片描述
如果你是新项目的话,spiders下面就两个文件
_init.py、hanyuSpider.py (其它文件是我之前创建的)

3、在hanyuSpider.py里面写你的爬虫逻辑

我以百度汉语一个网页为例子

爬取好字的基本释义,查看网页源代码
在这里插入图片描述
代码

# -*- coding: utf-8 -*-
import scrapy


class HanyuspiderSpider(scrapy.Spider):
    name = 'hanyuSpider'
    allowed_domains = ['hanyu.baidu.com']
    start_urls = ['https://dict.baidu.com/s?wd=好&from=poem']

    def parse(self, response):
        selectors = response.xpath('//div[@id="basicmean-wrapper"]/div/dl')
        if selectors is not None:
            for selector in selectors:
                select = selector.xpath('./dd//p')
                for sele in select:
                    ss = sele.xpath('./text()').get()
                    print(ss)

start_urls是我们爬取的起始网页
response是响应结果,我们采用xpath方法
xpath语法可以参考:https://blog.csdn.net/Chengf_/article/details/90299752
我们分析网站源代码发现,基本释义p标签内容,通过层级关系匹配出来
代码附上了,需要大家仔细琢磨下,不懂的欢迎留言区讨论

4、运行爬虫文件

scrapy crawl hanyuSpider(你的爬虫文件名字)
在这里插入图片描述
可以看到p标签里面的基本释义取出来了。

解释:本文参考了一些文章和爬取了百度汉语网页,如果侵权的欢迎留言,本人删除即可

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值