Python中常用到数据类型:
tuple list set dic trange str
python中的切片 [::] 以及多种推导方式
函数 : def 函数名称(参数) :
实现函数体
参数种类 :
必须参数
默认参数
关键参数
可变参数 : 分为两种 tuple *参数名称 *args dict定义参数 : **kwargs
建议 : 默认参数一定要在必须参数之后定义,可变参数一定要定义在最后
函数种类 :
外部函数
内部参数
匿名参数 lambda
装饰函数 : @
函数 总是要返回 如果没有return None总是被返回
面向对象 :
对象 :已存在可被使用的实例 万物皆对象 模块 函数 变量 类 方法 都是对象
class :描述其它实例信息的对象
方法 :定义其它实例行为的对象
与函数的区别 :函数可对立定义和调用
方法不能独立定义也不能独立调用
staticmethod 静态方法
classmedthod 类方法
属性 :定义其它实例特征的对象
常用模块 :
re xml... time socket threading random pickle os sys
scrapy : 爬虫框架
特点 : 工业化重量级
scrapy框架实例 :
# import scrapy 导入模块
#
#
# class QuotesSpider(scrapy.Spider): 继承了爬虫框架的蜘蛛
# name = "quotes" 蜘蛛名 运行蜘蛛时需要用到
# start_urls = [ 要抓取数据的网站的入口
# 'http://quotes.toscrape.com/tag/humor/',
# ]
# 蜘蛛的解析规则
# def parse(self, response):
# for quote in response.css('div.quote'):
# yield {
# 'text': quote.css('span.text::text').extract_first(),
# 'author': quote.xpath('span/small/text()').extract_first(),
# }
#
# next_page = response.css('li.next a::attr("href")').extract_first()
# if next_page is not None:
# yield response.follow(next_page, self.parse) 根据提取到的url 继续爬取
在窗口中运行蜘蛛 : scrapy runspider spid文件名
爬取的信息存储为json格式的文件 :
import json
with open("tou.json") as f :
datas = json.load(f)
for d in datas:
print(d)
执行 scrapy runspider spider文件名 -o 文件名.json 语句 生成json文件 得到结果