19.python爬虫—Scrapy

最新推荐文章于 2023-11-26 08:00:00 发布

大勇任卷舒

最新推荐文章于 2023-11-26 08:00:00 发布

阅读量106

点赞数 1

分类专栏： python爬虫文章标签：爬虫 python

@大勇若怯任卷舒

本文链接：https://blog.csdn.net/m0_47454596/article/details/113250324

版权

python爬虫专栏收录该内容

5 篇文章 0 订阅

订阅专栏

19.1 什么是scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量的代码，就能够快速的抓取
Scrapy 使用了Twisted['twɪstɪd]异步网络框架，可以加快我们的下载速度。

19.1.1 异步和非阻塞的区别

异步：调用在发出之后，这个调用就直接返回，不管有无结果
非阻塞：关注的是程序在等待调用结果（消息，返回值）时的状态，指在不能立刻得到结果之前，该调用不会阻塞当前线程。
回顾前面的爬虫流程
另一种形式爬虫流程

19.1.2 scrapy的爬虫流程

19.2 Scrapy 入门

创建一个scrapy项目
- scrapy startproject mySpider
生成一个爬虫
- scrapy genspider itcast "itcast.cn”
提取数据
- 完善spider，使用xpath等方法
保存数据
- pipeline中保存数据

19.3 实验

In：

lis1 = [1,2,3]

In：

def fun2():
    return lis1

In：

def fun1():
    for i  in lis1:
        yield i

In：

res = fun1()
print(type(res))

out：

<class 'generator'>

In：

for j in res:
    print(j)

out：

1
2
3

In：

res2 = fun2()
for j in res2:
    print(j)

out：

1
2
3

19.3.1.1 spiders

修改start_urls，改成实际请求地址：http://m.youdao.com/translate
parse函数名不能修改，通过yield返回item

19.3.1.2 pipelines

自定类来实现不同的管道
- 比如，实现文本输出类：TextFilePipeline
process_item函数名不能修改

19.3.1.3 settings

修改USER_AGENT，改成手机端
- 如：Mozilla/5.0 (iPhone…
修改ROBOTSTXT_OBEY为False
启用ITEM_PIPELINES，添加新增pipeline，200代表优先级，数字越小优先级越高
- 如：‘tranSpider.pipelines.TextFilePipeline’: 200,
修改日志级别
- 如：LOG_LEVEL = “WARNING”

19.3.1 运行爬虫

scrapy crawl liepin

大勇任卷舒

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
19.python爬虫—Scrapy

19.1 什么是scrapyScrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量的代码，就能够快速的抓取Scrapy 使用了Twisted['twɪstɪd]异步网络框架，可以加快我们的下载速度。19.1.1 异步和非阻塞的区别异步：调用在发出之后，这个调用就直接返回，不管有无结果非阻塞：关注的是程序在等待调用结果（消息，返回值）时的状态，指在不能立刻得到结果之前，该调用不会阻塞当前线程。回顾前面的爬虫流程另一种形式爬虫流程19.1.2 .
复制链接

扫一扫

专栏目录

大勇任卷舒 CSDN认证博客专家 CSDN认证企业博客

码龄4年

314: 原创

23万+: 周排名

22万+: 总排名

17万+: 访问

: 等级

3338: 积分

361: 粉丝

143: 获赞

46: 评论

265: 收藏

私信

关注

热门文章

分类专栏

最新评论

73.Zookeeper实现HiveServer2的HA
夜瑾: 大佬请教下，为什么我这边没有创建hive-site中指定的namespace，反而hive启动后会创建一个hs2ActivePassiveHA-sasl/instances/的znode，里面有instance-0000000000信息，并非是指定的namespace里面的10000端口信息
62.合理使用预训练网络-1
goyeer（工蚁）: 《62.合理使用预训练网络-1》才学兼优，出类拔萃。感情都是一点点淡的，人心也都是一点点凉的，不是所有的人都能一直等待;可我在乎你的关注，在乎你的三连！
97.HDFS文件系统挂载
夜里的一盏灯: 没有挂载成功怎么解决呀就是在/etc/fstab 加上了不管事
140.深度学习分布式计算框架-3
Jiangxl~: 文章内容丰富，条理清晰，值得一波关注，如沐春风，配图也很有趣，希望作者也指点我一番！
140.深度学习分布式计算框架-3
孤寒者: 这篇文章写得很好：写的非常详细，内容丰富，具有条理清晰，结构严谨，内容丰富和可借鉴性等特点。认真看完收获满满，期待下一篇文章的更新。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。