Scrapy 笔记 ---- 爱之初体验 1

安装请查看: Scrapy 官网

PipeLine

  • 整体架构
  • xpath/ css 筛选
  • 爱之初体验

架构

在这里插入图片描述
看不懂?没关系,看文件结构

tutorial/             # project's Python module, you'll import your code from here
    __init__.py

    items.py          # project items definition file

    middlewares.py    # project middlewares file

    pipelines.py      # project pipelines file

    settings.py       # project settings file

    spiders/          # a directory where you'll later put your spiders
        __init__.py

(这里有个初步概念就好,一步一步体会)

Xpath / css 使用

  • 楼主由于并没有 css 的经验,所以直接使用xpath , 思路都是一样的,原理跟杨宗纬的洋葱一样,一层一层拨开它的心,就得到想要的内容啦。
  • 这里要介绍一个scrapy 的神器,安装scrapy 之后,命令行输入 scrapy shell url ,可以直接解析网页内容,检查自己的xpath 还有css 内容是否正确
  • 具体怎样使用这两个方法,各种博客太多了,就不赘述了,总之,一层一层拨开它的心

爱之初体验

命令端输入

	$ scrapy startproject qqnews
	>> New Scrapy project 'qqnews', using template directory '/home/anaconda3/lib/python3.6/site-packages/scrapy/templates/project', created in:/yifwork/newss/qqnews
You can start your first spider with:
  cd qqnews
  scrapy genspider example example.com
  	$ cd qqnews
  	$ scrapy  genspider newsqq news.qq.com( scrapy genspider 项目名称  域名) 
	>> Created spider 'newsqq' using template 'basic' in module:
  		qqnews.spiders.newsqq

此时浏览目录,打开pycharm ,就可以看到,结构已经构建出来了
在这里插入图片描述

Scrapy in Pycharm

对于我们这样的菜鸟级码农,调试代码都要在IDE中,所以有必要在pycharm 中建立一个脚本,来作为debug 的入口。如图:

在这里插入图片描述
注意:

  • 脚本一定要放在与项目目录下一级,比如上图,项目名为 ‘qqnews’ ,main.py 就要放在qqnews 的下一层,原理是模拟了在命令行运行 scrapy , execute 中为命令行执行scrapy 的命令。

来,我们看看网页

下面右侧图怎么出来的呢?进入浏览器,F12

在这里插入图片描述

一进来就看到大幂幂,好了,我要这条八卦新闻。

楼楼的习惯是打开 scrapy shell 拨开乌云见明日之后再把规则写入程序,一次写入,终身不改(咳咳,可能)

但是会发现,页面解析出来的结果,根本不是我们所看到的这样,查看网页源码
在这里插入图片描述

才发现,所有的内容,全部是JS加载出来,还没学会走,就要爬山,确实过分。这里卖个关子,下次开始,从简单的静态页面入手,一步一步来学习。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值