Python复习与Scrapy框架

Python中常用到数据类型:

                                 tuple       list         set       dic       trange          str     

                                  python中的切片 [::]   以及多种推导方式  

 函数 :                     def  函数名称(参数) :

                                  实现函数体

 参数种类 :
                              必须参数
                              默认参数
                              关键参数
                              可变参数  : 分为两种   tuple  *参数名称  *args         dict定义参数 : **kwargs

                              建议 : 默认参数一定要在必须参数之后定义,可变参数一定要定义在最后

函数种类 :
                             外部函数
                            内部参数

                            匿名参数  lambda

装饰函数 : @

                         函数 总是要返回  如果没有return   None总是被返回

  面向对象 :
                         对象 :已存在可被使用的实例   万物皆对象 模块   函数  变量  类 方法  都是对象
                         class :描述其它实例信息的对象
                        方法 :定义其它实例行为的对象
                        与函数的区别 :函数可对立定义和调用

                        方法不能独立定义也不能独立调用

                       staticmethod       静态方法
                       classmedthod     类方法  
                       属性 :定义其它实例特征的对象
常用模块 :

                      re    xml...   time   socket   threading      random   pickle   os sys

                      scrapy :  爬虫框架

                       特点  :     工业化重量级


scrapy框架实例 :

# import scrapy                                   导入模块
#
#
# class QuotesSpider(scrapy.Spider):                继承了爬虫框架的蜘蛛
#     name = "quotes"                                       蜘蛛名     运行蜘蛛时需要用到
#     start_urls = [                                              要抓取数据的网站的入口
#         'http://quotes.toscrape.com/tag/humor/',
#     ]
#        蜘蛛的解析规则                     
#     def parse(self, response):
#         for quote in response.css('div.quote'):
#             yield {
#                 'text': quote.css('span.text::text').extract_first(),
#                 'author': quote.xpath('span/small/text()').extract_first(),
#             }
#
#         next_page = response.css('li.next a::attr("href")').extract_first()
#         if next_page is not None:

#             yield response.follow(next_page, self.parse)  根据提取到的url 继续爬取

在窗口中运行蜘蛛 :  scrapy runspider spid文件名

爬取的信息存储为json格式的文件   :

                                       import json     
                                       with open("tou.json") as f :
                                       datas = json.load(f)
                                       for d in datas:

                                       print(d)

执行   scrapy runspider spider文件名  -o  文件名.json   语句  生成json文件     得到结果

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值