自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(87)
  • 资源 (2)
  • 收藏
  • 关注

原创 2021-11-16[每日一题]391. 完美矩形__python3

给你一个数组 rectangles ,其中 rectangles[i] = [xi, yi, ai, bi]表示一个坐标轴平行的矩形。这个矩形的左下顶点是 (xi, yi) ,右上顶点是 (ai, bi) 。如果所有矩形一起精确覆盖了某个矩形区域,则返回 true ;否则,返回 false 。https://leetcode-cn.com/problems/perfect-rectangle/通俗易懂的解法:class Solution: def isRectangleCover(se.

2021-11-16 16:16:03 237

原创 负载均衡?四层、七层负载均衡的区别

一、负载均衡1、什么是负载均衡负载均衡是一种计算机技术,用来在多个计算机(计算机集群)、网络连接、CPU、磁盘驱动器或者其他资源中分配负载,以达到最优化资源使用、最大化吞吐率、最小化响应时间、同时避免过载的目的。负载均衡是将负载(工作任务、访问请求)进行平衡、分摊到多个操作单元上(服务器、组件)进行执行。是解决高性能,单点故障(高可用),扩展性(水平伸缩)的终极解决方案。2、负载均衡的分类根据负载均衡技术实现在OSI七层模型的不同层次,可以分为以下几种:2.1 DNS负载均衡利用域名解析实现负

2020-12-23 16:36:20 1389

原创 linux chkconfig详解

chkconfigchkconfig命令主要用户更新(启动或停止)和查询系统服务的运行级信息。可查询操作系统在每一个执行等级中会执行哪些系统服务,包括各类常驻服务chkconfig不是立即自动禁止或者激活一个服务,只是改变了符号连接语法示范chkconfig --list 列出所有的系统服务chkconfig --add httpd 增加httpd服务chkconfig --del httpd 删除httpd服务chkconfig --level httpd 2345 on 设置httpd在

2020-12-21 17:17:15 467

原创 Linux系统进程管理基本原理及相关管理工具如ps、pkill、top、htop等的使用

一、Linux进程管理程序是保存在外部存储介质中可执行代码和数据的静态集合;为了某种任务而设计的软件进程是在CPU及内存中处于动态执行状态的计算机程序linux系统中一个程序启动后,可以创建一个或者多个进程1.1 进程分类...

2020-12-21 16:57:17 265

原创 爬取某音乐163平台搜索单曲及专辑音乐

我可太懒了,不想写过程了,直接贴代码吧,我尽量每句代码都写上备注,但是我实在是无心工作啊啊啊啊啊啊啊啊 啊啊啊啊哪里有疑惑的地方,可以评论告诉我,大家一起探讨spider文件import execjsimport scrapyimport jsonimport timeimport requestsfrom lxml.etree import HTMLfrom bs4 import BeautifulSoupfrom ..items import VideoUrlSpiderItem.

2020-12-02 16:46:32 356

原创 linux常用命令的介绍(文件操作、用户管理与权限、免密登陆配置与网络管理)

1、文件操作① 文件目录操作查看当前所在目录pwd查看目录下的文件ls -a;以列表形式显示目录文件ll打开目录cd;倒回到上一级目录cd ..;倒回到根目录cd /;倒回到当前用户的家目录cd ~创建目录mkdir 目录名;删除(为空)目录rmdir 目录名;删除(非空)目录rm -rf 目录名(-r递归的删除目录,-f强制删除不提醒);删除(非空)目录前询问rm -ri复制文件cp test1 test2修改文件名、移动文件mv② 文件操作打开文件vi 文件名或vim 文件名进入编辑

2020-12-02 16:45:26 151

原创 【文本混淆反爬】CSS偏移

CSS偏移反爬说明:利用CSS样式将乱序的文字排版为人类正常阅读的顺序,但是爬虫获取到的是乱序的例如:https://flight.qunar.com/site/oneway_list.htm?searchDepartureAirport=%E5%8C%97%E4%BA%AC&searchArrivalAirport=%E4%B8%8A%E6%B5%B7&searchDepartureTime=2020-09-11&searchArrivalTime=2020-09-13&amp

2020-09-10 16:32:24 417 1

原创 【文本混淆反爬虫】图片伪装

图片伪装反爬说明:网站将关键信息变成图片,以达到使爬虫爬取不到想要的数据例如:https://www.gxrc.com/company/1085868 的招聘联系电话,为图片格式解决办法:使用光学字符识别技术从图片中提取文字步骤:1、向目标网站发起网络请求;2、使用xpath从响应正文提取图片url,并拼接;3、向图片发起网络请求;4、从响应正文中提取图片内容,并使用光学字符识别技术(PyTesseract库)从图片中提取文字。import ioimport requestsfrom

2020-09-08 18:13:53 564

原创 b站视频爬虫

更新视频爬取文章啦这是第三篇,前面有西瓜视频和微博视频的内容此文仅限交流使用,拒绝商用。b站爬取不同地方的内容的话,视频格式是不一样的,例如:爬取首页的视频或者排行榜的视频是m4s格式如果是根据up主的id爬取的主页内容,那么这里的视频是音频和视频分离的,这样的话,需要最终将音视频使用ffmpe合成1、首先是爬取首页二级栏目下的视频import scrapyimport jsonimport reimport loggingimport timefrom ..items impor.

2020-07-30 16:01:46 577 1

原创 微博视频爬虫

说在前面的一点话~我本职工作是做爬虫开发的,最近开始爬视频网站了。大大小小也爬了好多网站,也破解了好多网站,常规的视频网站基本上都爬了,还有一些短视频app也…看我有心情写几篇博客吧,哈哈哈有一个专刊,当然专栏里博客数量也不多,就专门放我爬的视频网站吧一、思路:以微博视频VLOG为例,我爬的是热门推荐这部分(url就不贴了)第一步:先看网页源代码中有有.mp4或其他视频格式结尾的链接(大多数情况是没有的)第二步:抓包,查看XHR类型的请求返回的数据第三步:加密破解二、实战我用的sc.

2020-07-14 16:53:45 1686

原创 后端开发面经(python)--绿盟

绿盟面经1、离职原因2、打算长期留在北京吗?结婚了吗?3、说说你投入最多、付出最多的一个项目4、说说你的日志监控系统​ 4.1 ES的优缺点​ 4.2 ES和传统型数据库的区别​ 4.3 技术选型你有参与吗?5、这些项目中,你主要负责的哪部分的?6、为什么使用Kafka?还了解其他消息队列吗?7、项目部署8、linux的使用​ 8.1 查询进程​ 8.2 查询分区​ 8.3 linux系统搭建​ 8.4 centos的安装9、django处理请求的流程10、项目中表与表的关

2020-05-28 20:42:09 583

原创 爬虫面经--新浪(凉)

1、自我介绍2、介绍一下你的爬虫项目3、apscheduler是怎么用的4、spider怎么从redis中获取你存储的内容5、twisted机制了解吗6、介绍一下scrapy(组成、流程)8、apk解包9、自动化测试工具:appium了解吗10、视频爬取有涉及吗?11、自然语言处理这部分有涉及吗?反问:这个项目主要负责的工作是?对于apk解包这部分还没有实战过,唉…新浪简历筛选过了后快半个月才联系我。真的慢,也可能是我真的菜…...

2020-05-28 20:40:35 894

原创 后端开发面经(python)--奥鹏教育

1.介绍一下你的项目2.说说项目中的亮点3.你用的是django,我们项目用的是flask,有用flask做过项目吗?工作中用的是django框架,但是我自己私下有用flask做过几个小项目4.json用过吗?如何获取数据?给你一个列表的数据,你怎么展示?5.深拷贝、浅拷贝。实战中用到了吗?6.python多线程7.GIL是什么?多线程环境下,使用GIL是怎么执行的?8.当退出python时是否释放所有内存分配?不是9.这个时候想要再调用之前的模块,该怎么调用?可以调用全局命名空间的对

2020-05-28 20:38:26 406

原创 爬虫面经--中译语通

1、django是怎么用的?具体的呢?2、能自己写前端代码吗?前端的框架呢?3、支付宝/微信支付实现,是自己看的接口文档吗?能看懂开发文档吗?4、你之前做的项目中,最复杂的查询是?5、数据库中薪资是存储的范围,那么一个值这个范围之内,该怎么查询?6、CSS选择器、xpath、正则等会吗?7、scrapy-redis之前运用的怎么样?8、celery这块说说原理,以及应用的场景?在scrapy中的应用?9、给你一个爬取的场景“现在要提取一批新闻网站的新闻,不同的网站所采用的前端标签不同”,你该

2020-05-28 20:37:03 286

原创 爬虫面经--中网数据

1.介绍一下你的爬虫项目2.我看你用的scrapy-redis,当时用了几台机器?2.scrpay到scapy-redis的转换3.爬虫中遇到的反爬策略4.selenium了解吗?5.xpath中的一些函数(substring\substring-before)6.容器docker了解吗?7.python的多线程(GIL)...

2020-05-28 20:36:12 378 1

原创 疫情后的后端面经(python)--微软

一面:1、自我介绍2、介绍一下项目3、说说django、flask、tornado的区别4、异步5、python多线程与异步的对比6、消息队列(kafka),使用场景7、ELK框架中kafka是怎么使用的8、chrome用过开发者工具吗?怎么从intrnet中快速获得一个ajax发起请求的位置(实战)9、手写几个xpath10、爬虫中你遇到的反爬措施及解决办法11、网络协议:介绍一下http12、http都有哪些请求方式13、http请求头的组成14、accept-type都有哪

2020-05-28 20:34:38 474

原创 疫情后的后端面经(python)--百度

笔试(手写代码):​ 5道简单的正则、排序实战题​ 2道情景模拟题,需要写出具体代码一面:1、先就笔试题进行了讨论2、介绍一下你最近做的印象最深的项目3、kafka在ELK中是怎么用的?4、数据库被锁住有需要吗?5、SQL优化6、实景题:统计词频还问了几个问题,我给忘了二面:手写两道算法题:1、判断字符串是否有效2、顺时针打印一个矩阵面试:1、分别说一下你的爬虫项目和web项目2、为什么用mongodb,有什么好处?3、mongodb中数据量不大的时候存储的速度还是 很快

2020-05-28 20:13:03 363

原创 OpenStack基础快速了解

OpenStack:帮助服务商和企业内部实现云基础架构服务任务:简化云的部署过程,并为其带来良好的可扩展性工作流程:Open Stack的各个服务之间通过统一的REST风格的API调用,实现系统的松耦合。它内部组件的工作过程是一个有序的整体。诸如计算资源分配、控制调度、网络通信等都通过AMQP实现。 Open Stack的上层用户是程序员、一般用户和 Horizon界面等模块。这三者都是采用 Open Stack各个组件提供的API接口进行交互,而它们之间则是通过AMQP进行互相调用,它们共同利用底

2020-05-22 11:18:03 376

原创 python | scrapy爬虫框架与selenium配合使用

1. scrapy框架scrapy是基于twusted框架开发而来,twisted是一个流行的事件驱动难过的python网络框架,因此scrapy使用了一种非阻塞的代码来实现并发scrapy的组成:引擎engine:引擎负责控制系统所有组件之间的数据流,并在某些动作发生时触发事件。调度器scheduler:是用来接收引擎发过来的请求,压入队列中,并在迎请再次请求的时候返回,可以想象成一个...

2020-04-05 18:44:05 1203

原创 python每日算法 | LFU缓存(Day5)

Day5 难度:困难题干:设计并实现最不经常使用(LFU)缓存的数据结构。它应该支持以下操作:get 和 put。get(key) - 如果键存在于缓存中,则获取键的值(总是正数),否则返回 -1。put(key, value) - 如果键不存在,请设置或插入值。当缓存达到其容量时,它应该在插入新项目之前,使最不经常使用的项目无效。在此问题中,当存在平局(即两个或更多个键具有相同使用频...

2020-04-05 16:58:26 428

原创 python | 爬虫中redis的应用,即scrapy-redis的应用

1. 关于scrapy-redisscrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序原因:redis在内存中运行,它可以将抓取的网页内容存入到内存中,因此相对于从磁盘获取数据,redis可以大大提高爬虫爬取效率scrapy-redis组件提供的三大功能: scheduler - 调度器 dupefilter - URL去重规则 ...

2020-04-04 22:19:18 384

原创 python每日算法 | 接雨水(Day4)

Day4 难度:困难题干:给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。上面是由数组 [0,1,0,2,1,0,1,3,2,1,2,1] 表示的高度图,在这种情况下,可以接 6 个单位的雨水(蓝色部分表示雨水)。 感谢 Marcos 贡献此图。示例:输入: [0,1,0,2,1,0,1,3,2,1,2,1]输出: 6思路:...

2020-04-04 21:23:21 301

原创 python每日算法 | 字符串转换整数 (atoi)(Day3)

Day3 题干:难度:中等请你来实现一个 atoi 函数,使其能将字符串转换成整数。首先,该函数会根据需要丢弃无用的开头空格字符,直到寻找到第一个非空格的字符为止。接下来的转化规则如下:如果第一个非空字符为正或者负号时,则将该符号与之后面尽可能多的连续数字字符组合起来,形成一个有符号整数。假如第一个非空字符是数字,则直接将其与之后连续的数字字符组合起来,形成一个整数。该字符串在有效的整数...

2020-04-03 21:37:42 219

原创 python每日算法 | 有效括号的嵌套深度(Day2)

Day2 题干:难度:中等根据百度百科 ,生命游戏,简称为生命,是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含 m × n 个格子的面板,每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态:1 即为活细胞(live),或 0 即为死细胞(dead)。每个细胞与其八个相邻位置(水平,垂直,对角线)的细胞都遵循以下四条生存定律:如果活细胞周围八个位置的活细胞...

2020-04-02 19:58:34 281

原创 python每日算法 | 有效括号的嵌套深度(Day1)

Day1 题干:难度:中等有效括号字符串定义:对于每个左括号,都能找到与之对应的右括号,反之亦然。详情参见题末「有效括号字符串」部分。嵌套深度 depth定义:即有效括号字符串嵌套的层数。详情参见题末「嵌套深度」部分。给你一个「有效括号字符串」seq,请你将其分成两个不相交的有效括号字符串 A 和 B:「不相交」是指:每个 seq[i] 只能分给 A 和 B 二者中的一个,不能既属于 ...

2020-04-01 15:59:03 676

原创 Django添加富文本编辑器ckeditor

Django中大段文字采用的是textfield模型,但是textfield太简单,没办法设置更多的格式(加粗,颜色字体等),所以就需要使用富文本编辑器ckeditorckeditor免费且功能强大安装ckeditorpip install django-ckeditor将ckeditor与ckeditor_upload加入INSTALLED_APPS中ckeditor 不允许上传图像和...

2020-01-13 18:15:24 346

原创 业务从python2迁移至python3中需要了解的知识

最新消息,python2.7于2020年1约1日起正式停止维护,这也就意味着python2完全退休,现在是python3的时代。python2的退休影响着数以百万系统的安全性。在python2退休之际,要尽可能的确保业务都迁移至python3,以方便后续维护与跟进。那么了解python2 与python3 的区别就至关重要。python2与python3的区别python2pyt...

2020-01-13 17:34:33 281

原创 网络相关面试题

文章目录1.简述OSI七层协议2.什么是C/S和B/S架构?3.三次握手、四次挥手三次握手 ——> 请求连接四次挥手 ——> 断开连接4.TCP与UDP的区别5.为何基于TCP协议的通信比基于UDP协议的通信更可靠?6.什么是socket?简述基于TCP协议的套接字通信流程7.什么是粘包?socket 中造成粘包的原因是什什么?哪些情况会发生粘包现象?8.IO多路复用的作用9.sele...

2020-01-10 15:14:41 416

原创 爬虫:request、scrapy、scrapy-redis的爬虫流程,匹配机制:xpath、正则、css选择器,反爬虫策略

文章目录一、python、PHP、Java、C/C++爬虫的比较二、python爬虫基础知识1.抓取HTML页面2.解析响应页面的内容3.采集动态HTMLselenium操作cookie隐式等待和显示等待打开新窗口和切换页面:4.验证码处理5.scrapy框架(scrapy、pyspider)安装scrapy框架scrapy框架架构项目文件作用CrawlSpider爬虫使用twisted异步保存M...

2020-01-09 11:36:22 562

原创 python日志模块loguru

文章目录1.安装2.输出日志3.输出到文件4.日志规则5.日志文件6.其他参数7.时间格式化8.在工程中创建多个文件处理器对象并解决中文乱码问题1.安装pip install loguru2.输出日志from loguru inport loggerlogger.debug('这是一条debug日志')3.输出到文件from loguru import loggerlogger...

2020-01-08 18:03:22 561

原创 Flask框架面试题

文章目录1.什么是Flask,有什么优点?2.Flask-WTF是什么,有什么特点?3.Flask脚本的常用方式是什么?4.如何在Flask中访问会话?5.解释Python Flask中的数据库连接?6.Flask框架依赖组件?7.Flask蓝图的作用?8.列举使用过的Flask第三方组件?9.简述Flask上下文管理流程?10.Flask中多app应用是怎么完成?11.wtforms组件的作用?...

2020-01-08 16:30:39 4573

原创 Django框架面试题

文章目录1.django创建项目的命令2.django创建项目后,项目文件夹下的组成部分3.对MVC、MVT的理解4.django中models利用ORM对MySQL进行查表的语句5.Django中间件的使用6.浅谈你对uWSGI和nginx的理解7.nginx和uWSGI服务器之间如何配合工作的?8.django开发中数据库做过什么优化?9.验证码过期时间怎么设置?10.python中djang...

2020-01-07 16:50:42 1381

原创 面向对象编程思想

面向对象1.概念面向对象:是将现实问题构建关系,然后抽象成类,给类定义属性和方法后,再将类实例化为实例,通过访问实例的属性解二调用方法来进行使用。再python中“类”和“类的实例”都称为对象(python中一切皆对象),因为python的类是更顶级的type实例化后的对象。2.理解面向对象1.将功能封装进对象,强调具备了功能的对象2.关注的是解决问题需要哪些对象面向对...

2020-01-05 15:18:45 455

原创 python常用基础库:标准库和第三方库

标准库os模块:提供与操作系统相关联的函数import osos.getcwd() # 返回当前的工作目录os.chdir('/server/accesslogs') # 修改当前的工作目录os.system('mkdir aaa') # 执行系统命令mkdie aaasys模块:通用工具脚本经常调用命令行参数import syssys.argv # 从程序外部获取参数的桥...

2020-01-03 16:24:06 1285

原创 python常用虚拟环境Anaconda & virtualenv

由于Python有2.x和3.x两大的版本,而且每一个工程建立所用的各种包的版本也不尽相同Anaconda (开源的包管理器)Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。因为包含了大量的科学包,Anaconda 的下载文件比较大(约 531 MB),如果只需要某些包,或者需要节省带宽或存储空间,也可以使用Miniconda...

2020-01-02 11:07:40 352

原创 关于Redis,面试都会问什么?(持续更新中...)

问题1:为什么要使用Redis?答:因为传统的关系型数据库如MySQL已经不能适用于所有场景了,如秒杀的库存扣减、APP首页的访问流量高峰等等,很容易把数据库打崩,所以要引入缓存中间件。目前市面上常用的缓存中间件有Redis和Memcached,中和考虑他们的优缺点,最终选择Redis问题2:为什么使用Redis,不使用Memcached?答:redis支持更多的数据类型,Memcached...

2019-12-30 12:58:03 439

原创 greenlet的使用

了解greenlet概念greenlet是python的一个C拓展,旨在提供可自行调度的“微线程”,即协程generator实现的协程在yield value时只能将value返回给调用者;而在greenlet中,target.switch(value)可以切换到指定的协程(target),然后yield value。greenlet用switch来表示协程的切换,从一个协程切换到另一个协程...

2019-12-24 18:19:02 197

原创 web开发流程及详解

需求分析 ——>原型 ——> 架构设计——> 数据库设计——> 代码模块设计——> 测试——> 网站整合——> 集成测试——> 发布...架构设计:服务器的架构服务器是单台的还是集群的?单台服务器常见的问题,无非就是并发、大数据、单点。并发问题:一个时间点,同时有海量用户去对服务器进行访问大数据:例如海量数据的存储和传输(性能方面的...

2019-12-24 17:11:44 1197

原创 MongoDB的基本使用

关于MongDB介绍MongoDB是一个基于分布式 文件存储的NoSQL数据库;旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。NoSQL数据库:泛指非关系型数据库。优点:易扩展,大数据量、高性能,灵活的数据模型,高可用NoSQL框架体系Nosol整体框架(四层):数据持久层、整体分布层、数据逻辑模型层、接口层特点模式自由:可以将不同结构的文档存储到同一个数据库中面向集合...

2019-12-19 15:20:37 167

原创 数据结构笔试题5

version_10使用递归将栈转置 ReverseStackRecursivelydef getAndRemoveLat(stack): res = stack.pop() if len(stack) == 0: return res else: last = getAndRemoveLast(stack) stack.append(res) return lastd...

2019-12-16 22:51:13 119

网易云音乐js代码

网易云音乐js代码

2020-11-20

机器学习试题-试卷.docx

机器学习笔试选择题及答案 1. 在回归模型中,下列哪一项在权衡欠拟合(under-fitting)和过拟合(over-fitting)中影响最大?

2020-04-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除