scrapy框架的使用方法

最新推荐文章于 2024-06-09 09:30:47 发布

心月流云

最新推荐文章于 2024-06-09 09:30:47 发布

阅读量5.8k

点赞数 5

分类专栏： python36(2018-3-1)

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/guifei010/article/details/79415531

版权

python36(2018-3-1) 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.第一步：创建爬虫项目

2.使用pycharm打开爬虫项目

打开结果如下(目录结构):

3.第三步：创建爬虫

说明：在ivskyspider文件中创建，所以需要先进入ivskyspider

说明:一个项目可以创建多个爬虫文件

4.第四步：打开新建的爬虫文件ivsky.py

文件结构如下：

5.

执行代码：

方法一：

打开Teminal

方法二：

在第一个IvskySpider的位置新建文件

不想在终端运行程序时，先新建此文件，然后运行

from scrapy import cmdline

cmdline.execute(['scrapy', 'crawl', 'ivsky'])

爬取数据：

scrapy的基本用法
1. 通过命令创建项目
scrapy startproject 项目名称
2. 用pycharm打开项目
3. 通过命令创建爬虫
scrapy genspider 爬虫名称域名
4. 配置settings
robots_obey=False
Download_delay=0.5
Cookie_enable=False
5. 自定义UserAgentMiddleWare
可以直接粘现成的
或者自己通过研究源码实现
6. 开始解析数据
1) 先大致规划一下需要几个函数
2) 函数1跳转到函数2使用 yield scrapy.Request(url,callback,meta,dont_filter)
7. 将数据封装到items,记得yield item
8. 自定义pipelines将数据存储到数据库/文件中

关注

5
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
scrapy框架的使用方法

1.第一步：创建爬虫项目2.使用pycharm打开爬虫项目打开结果如下(目录结构):3.第三步：创建爬虫说明：在ivskyspider文件中创建，所以需要先进入ivskyspider说明:一个项目可以创建多个爬虫文件4.第四步：打开新建的爬虫文件ivsky.py文件结构如下：5.执行代码：方法一：打开Teminal方法二：在第一个IvskySpider的位置新建文件不想在终端运行程序时，先新建此文...
复制链接

扫一扫

专栏目录

心月流云 CSDN认证博客专家 CSDN认证企业博客

码龄6年

108: 原创

18万+: 周排名

175万+: 总排名

20万+: 访问

: 等级

2607: 积分

35: 粉丝

35: 获赞

11: 评论

148: 收藏

私信

关注

热门文章

分类专栏

最新评论

sorted()函数--排序--数字排序--字符串排序
貔貅test: 中文字符串的排序呢
bs4_lxml的基本用法（不同于正则和xpath）
RUnewhand: 今天刚试了，用python3，可以跑通
字典--取key、取value、元组、键值对，添加，删除
libbb-: 找出现次数，可以使用collections.Counter
字典--取key、取value、元组、键值对，添加，删除
weixin_58179691: 想利用列表array取id前缀名，然后拼接#变成指向id，然后拼接n就可以精确取到不同行id对应的val值，然后利用append存进data_array的字典嵌套列表里，语法不知道对不对 [code=javascript] var array = ["pkey", "serialnumber", "name", "install", "genre", "number", "audience", "description", "size", "medium", "principal", "img", "status"]; var data_array = { 'pkey': [], 'serialnumber': [], 'name': [], 'install': [], 'genre': [], 'number': [], 'audience': [], 'description': [], 'size': [], 'medium': [], 'principal': [], 'img': [], 'status': [] }; // 将所有的行中的id都放进数组,i为表格总行数 for (var n = 1; n <= i; n++) { // j为遍历数，i行数，每新增一行，都会id=name+1 for (var j = 0; j < array.length; j++) { data_array(j) = $("#'array[j]' '+' n").val.append; } } [/code]
xpath的相关知识--51job获取的数据写入表格
Tisfy: 总结得十分精辟，就像那：东山老，可堪岁晚，独听桓筝。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。