爬虫---scrapy

最新推荐文章于 2020-07-15 11:39:04 发布

sunmlight

最新推荐文章于 2020-07-15 11:39:04 发布

阅读量218

点赞数 1

分类专栏：爬虫 Python 文章标签： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39926957/article/details/80329469

版权

本文介绍了如何在Ubuntu上安装Scrapy，包括安装依赖库和Scrapy框架。接着，详细阐述了Scrapy的基本流程，如创建项目、生成爬虫、运行爬虫等，并提到了如何自定义爬虫程序、定义items、设置settings以及创建pipelines。此外，还讲解了创建规则爬虫的方法，使用LinkExtractor设置爬取规则。

摘要由CSDN通过智能技术生成

scrapy

ubuntu安装:

python3安装依赖库:sudo apt-get install python3 python3-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
通过pip 安装 Scrapy 框架命令：sudo pip3 install scrapy

基本流程:

startproject 创建一个新工程–scrapy startproject MySpider
进入项目目录 cd MySpider
在当前项目里创建爬虫: scrapy genspider atguigu ‘www.atguigu.com’
运行爬虫: scrapy crawl name

scrapy项目:自定义爬虫程序

需要引入item字段:from 项目名.items import 项目Item
name:与爬虫程序相同
allowed_domains : 定义爬取的域名(可以省略或者写多个)
start_urls 爬取的起始网址
parse_item方法中写解析数据的代码,获取数据方式text = response.xpath('//div[@class="name"]/text()').extract()[0]
item需要创建一个实例化对象 item = nameItem()
将数据放入itemitem['title']=title
yirld item 将每条数据返回

scrapy项目:items<

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄7年

27
原创

29
点赞

22
收藏

10
粉丝

关注

私信

热门文章

分类专栏

Python 11篇
Django 8篇
爬虫 5篇
后端 8篇
数据库
Ubuntu 3篇
Play 4篇
前端 1篇

最新评论

Bootstrap文件上传美化 input()
郭等等等: 我需要导入什么jar包呢
Ubuntu美化之---Docky
_Liz: [code=plain] mkdir -p ~/Downloads/docky cd ~/Downloads/docky wget http://archive.ubuntu.com/ubuntu/pool/universe/g/gnome-sharp2/libgconf2.0-cil_2.24.2-4_all.deb wget http://archive.ubuntu.com/ubuntu/pool/main/g/glibc/multiarch-support_2.27-3ubuntu1_amd64.deb wget http://archive.ubuntu.com/ubuntu/pool/universe/libg/libgnome-keyring/libgnome-keyring-common_3.12.0-1build1_all.deb wget http://archive.ubuntu.com/ubuntu/pool/universe/libg/libgnome-keyring/libgnome-keyring0_3.12.0-1build1_amd64.deb wget http://archive.ubuntu.com/ubuntu/pool/universe/g/gnome-keyring-sharp/libgnome-keyring1.0-cil_1.0.0-5_amd64.deb sudo apt-get install ./*.deb wget http://archive.ubuntu.com/ubuntu/pool/universe/d/docky/docky_2.2.1.1-1_all.deb sudo apt-get install ./docky_2.2.1.1-1_all.deb [/code]
csv文件转字典()
OBLPlife: 这个f是什么东西
Ubuntu美化之---Docky
Major_renqi: 20.04无法安装了
Bootstrap文件上传美化 input()
sunmlight 回复银·白: 需要引入bootstrap和Jquery

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。