Python复习与Scrapy框架

最新推荐文章于 2020-11-21 03:28:21 发布

華丶江涛

最新推荐文章于 2020-11-21 03:28:21 发布

阅读量134

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41870347/article/details/80795528

版权

Python中常用到数据类型：

tuple list set dic trange str

python中的切片 [::] 以及多种推导方式

函数： def 函数名称(参数) :

实现函数体

参数种类：
必须参数
默认参数
关键参数
可变参数 : 分为两种 tuple *参数名称 *args dict定义参数： **kwargs

建议：默认参数一定要在必须参数之后定义，可变参数一定要定义在最后

函数种类 :
外部函数
内部参数

匿名参数 lambda

装饰函数： @

函数总是要返回如果没有return None总是被返回

面向对象：
对象：已存在可被使用的实例万物皆对象模块函数变量类方法都是对象
class ：描述其它实例信息的对象
方法：定义其它实例行为的对象
与函数的区别：函数可对立定义和调用

方法不能独立定义也不能独立调用

staticmethod 静态方法
classmedthod 类方法
属性：定义其它实例特征的对象
常用模块：

re xml... time socket threading random pickle os sys

scrapy : 爬虫框架

特点：工业化重量级

scrapy框架实例：

# import scrapy 导入模块
#
#
# class QuotesSpider(scrapy.Spider): 继承了爬虫框架的蜘蛛
# name = "quotes" 蜘蛛名运行蜘蛛时需要用到
# start_urls = [ 要抓取数据的网站的入口
# 'http://quotes.toscrape.com/tag/humor/',
# ]
# 蜘蛛的解析规则
# def parse(self, response):
# for quote in response.css('div.quote'):
# yield {
# 'text': quote.css('span.text::text').extract_first(),
# 'author': quote.xpath('span/small/text()').extract_first(),
# }
#
# next_page = response.css('li.next a::attr("href")').extract_first()
# if next_page is not None:

# yield response.follow(next_page, self.parse) 根据提取到的url 继续爬取

在窗口中运行蜘蛛： scrapy runspider spid文件名

爬取的信息存储为json格式的文件：

import json
with open("tou.json") as f :
datas = json.load(f)
for d in datas:

print(d)

执行 scrapy runspider spider文件名 -o 文件名.json 语句生成json文件得到结果

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python复习与Scrapy框架

Python中常用到数据类型： tuple list set dic trange str python中的切片 [::] 以及多种推导方式函数： ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。