python:
tuple(元组) list(集合) set dict range str 分片 [::] 推导
========================================================================================================================
函数:def 函数名称(参数):
实现函数体
参数种类:
必须参数:
默认参数:
关键参数:
可变参数:
tuple类型的可变参数 *参数名(*args)------定义时必须在字典类型的可变参数之前
dict类型的可变参数 **参数名(**kwargs)
建议:默认参数一定要在必须参数之后定义,可变参数一定要在最后
函数种类:
外部函数:
内部函数:
匿名函数:目前只有lambda
装饰器:符号:‘@’
函数 总是要返的 如果没有return None总是被返回
========================================================================================================================
面向对象:
对象:已存在可被使用的实例称之为对象。python中万物皆对象,所以模块、函数、变量、类、方法等都是对象
类(class):描述其它实例信息的对象(class是描述其他对象的对象)
方法:定义其他实例行为的对象为方法
与函数的区别:
函数:函数可对立定义和调用
方法:定义其他实例行为的对象
staticmethod-----使用装饰器将方法变成静态方法
classmethod-----使用装饰器将方法变成类方法
属性:定义其他实例特征的对象为属性
下面的例子证明在python中方法也可以称为属性:
stu=Student()
stu.jump = lambda x: print("你跳了{0}".format(x))
stu.jump(2)
========================================================================================================================
常用模块:
re xml..... time socket threading random pickle os sys
re os sys xml pickle
pdk ------> python sdk
第三方:scrapy pandas numpy plot?
scrapy:爬虫框架 特点:工业化重量级
pyspider:国产通用爬虫
url:统一资源定位符---------协议----主机名----端口号----uri
uri:同一主机内的统一资源标识符
urllib:python自带的框架,用于数据爬取
爬虫特性:
xpath:通过path风格的表达式来解析xml或者html
实例:E:/大数据/a /html/body/div /html/body//div----获取到孙子集或者孙孙子集
/html/body/div[属性]
========================================================================================================================
scrapy爬虫:(针对有用数据特定爬取)
任务:编写蜘蛛爬取网页
提取信息并保存
执行流程:
示例:
import scrapy
class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = [
'http://quotes.toscrape.com/tag/humor/',
]
def parse(self, response):
for quote in response.css('div.quote'):
yield {
'text': quote.css('span.text::text').extract_first(),
'author': quote.xpath('span/small/text()').extract_first(),
}
next_page = response.css('li.next a::attr("href")').extract_first()
if next_page is not None:
yield response.follow(next_page, self.parse) 根据得到的url继续爬取,return结束方法,yield返回结果并不结束
tuple(元组) list(集合) set dict range str 分片 [::] 推导
========================================================================================================================
函数:def 函数名称(参数):
实现函数体
参数种类:
必须参数:
默认参数:
关键参数:
可变参数:
tuple类型的可变参数 *参数名(*args)------定义时必须在字典类型的可变参数之前
dict类型的可变参数 **参数名(**kwargs)
建议:默认参数一定要在必须参数之后定义,可变参数一定要在最后
函数种类:
外部函数:
内部函数:
匿名函数:目前只有lambda
装饰器:符号:‘@’
函数 总是要返的 如果没有return None总是被返回
========================================================================================================================
面向对象:
对象:已存在可被使用的实例称之为对象。python中万物皆对象,所以模块、函数、变量、类、方法等都是对象
类(class):描述其它实例信息的对象(class是描述其他对象的对象)
方法:定义其他实例行为的对象为方法
与函数的区别:
函数:函数可对立定义和调用
方法:定义其他实例行为的对象
staticmethod-----使用装饰器将方法变成静态方法
classmethod-----使用装饰器将方法变成类方法
属性:定义其他实例特征的对象为属性
下面的例子证明在python中方法也可以称为属性:
stu=Student()
stu.jump = lambda x: print("你跳了{0}".format(x))
stu.jump(2)
========================================================================================================================
常用模块:
re xml..... time socket threading random pickle os sys
re os sys xml pickle
pdk ------> python sdk
第三方:scrapy pandas numpy plot?
scrapy:爬虫框架 特点:工业化重量级
pyspider:国产通用爬虫
url:统一资源定位符---------协议----主机名----端口号----uri
uri:同一主机内的统一资源标识符
urllib:python自带的框架,用于数据爬取
爬虫特性:
xpath:通过path风格的表达式来解析xml或者html
实例:E:/大数据/a /html/body/div /html/body//div----获取到孙子集或者孙孙子集
/html/body/div[属性]
========================================================================================================================
scrapy爬虫:(针对有用数据特定爬取)
任务:编写蜘蛛爬取网页
提取信息并保存
执行流程:
示例:
import scrapy
class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = [
'http://quotes.toscrape.com/tag/humor/',
]
def parse(self, response):
for quote in response.css('div.quote'):
yield {
'text': quote.css('span.text::text').extract_first(),
'author': quote.xpath('span/small/text()').extract_first(),
}
next_page = response.css('li.next a::attr("href")').extract_first()
if next_page is not None:
yield response.follow(next_page, self.parse) 根据得到的url继续爬取,return结束方法,yield返回结果并不结束