自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 收藏
  • 关注

原创 高并发解决方案--负载均衡

高并发解决方案--负载均衡什么是负载均衡?当一台服务器的性能达到极限时,我们可以使用服务器集群来提高网站的整体性能。那么,在服务器集群中,需要有一台服务器充当调度者的角色,用户的所有请求都会首先由它接收,调度者再根据每台服务器的负载情况将请求分配给某一台后端服务器去处理。那么在这个过程中,调度者如何合理分配任务,保证所有后端服务器都将性能充分发挥,从而保持服务器集群的整体性能最优,这...

2019-04-18 12:01:18 232

原创 CSRF

CSRFCSRF(Cross-site request forgery)跨站请求伪造,也被称为“One Click Attack”或者Session Riding,通常缩写为CSRF或者XSRF,是一种对网站的恶意利用。尽管听起来像跨站脚本(XSS),但它与XSS非常不同,XSS利用站点内的信任用户,而CSRF则通过伪装来自受信任用户的请求来利用受信任的网站。与XSS攻击相比,CSRF攻...

2019-04-17 11:06:45 183

原创 asp(动态服务器页面)

asp(动态服务器页面)ASP即Active Server Pages,是MicroSoft公司开发的服务器端脚本环境,可用来创建动态交互式网页并建立强大的web应用程序。当服务器收到对ASP文件的请求时,它会处理包含在用于构建发送给浏览器的HTML(Hyper Text Markup Language,超文本置标语言)网页文件中的服务器端脚本代码。除服务器端脚本代码外,ASP文件也可以...

2019-04-17 11:04:02 3340

原创 编程中设计模式的六大原则

设计模式的六大原则1、开闭原则(Open Close Principle)开闭原则的意思是:对扩展开放,对修改关闭。在程序需要进行拓展的时候,不能去修改原有的代码,实现一个热插拔的效果。简言之,是为了使程序的扩展性好,易于维护和升级。想要达到这样的效果,我们需要使用接口和抽象类,后面的具体设计中我们会提到这点。2、里氏代换原则(Liskov Substitution Principl...

2019-04-17 10:58:45 192

原创 手机app

不知道手机APP数据结构,借助第三方抓包工具,查看APP里面的内容并且分析他的链接地址,在python里面编写爬虫程序,不需要编写手机APP,没有手机APP的爬虫,还是在python里面爬取,只是通过用抓包工具分析APP请求和响应的规律,然后编写爬虫。抓包工具原理:通过设置代理的方式确保手机和 pc 处亍同一个局域网内,将手机处于抓包软件的监听之下,这样 app 収给服务器的数据包和服务...

2019-04-12 20:37:19 259

原创 科学计算工具--Numpy

基础类库简介ndarray数组创建ndarray的矩阵运算元素计算函数元素统计函数元素判断函数元素去重排序函数数据分析概念:数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论的过程。数据分析的过程:1. 数据收集:本地数据或者网络数据的采集与操作.2. 数据处理:数据的规整,按照某种格式进行整合存储。3. 数...

2019-04-12 20:07:05 433

原创 爬虫---去重策略

python爬虫去重策略:1.将访问过的URL保存到数据库中,效率低,查询和插入数据库,2.将访问过的URL保存到set中,查询快,内存占用高3.URL经过md5等方法哈希后保存到set中,降低内存占用,scrapy使用此方法4.用bitmap或者bloomfilter方法,将访问过的URL通过hash函数映射到某一位 bitmap:内存占用少,去重没那么精准,存在冲...

2019-04-11 19:36:41 196

原创 爬虫--scrapy下载图片和生成缩略图

下载图片的地址封装成请求对象,然后交给下载队列处理,第一个方法触发: 1.spider模块,通过yield发送items对象的时候, 2.把items对象交给pipeline模块做处理的时候,会触发第一个方法 3.方法里面把图片的urls封装成请求对象,然后通过yield交给引擎, 4.由引擎放入待请求的队列中,然后由下载器...

2019-04-10 21:19:17 453

原创 爬虫---scrapy-redis

scrapy redis 简介Scrapy-redis 是为了更方便地实现 Scrapy 分布式爬取,而提供了一些以 redis 为基础的组件(仅有组件)。主体还是是 redis 和 scrapy 两个库,Scrapy-redis 像胶水一样,把这两个插件粘结了起来。特点: 能实现分布式爬取 可实现去重 持续性爬取,可实现增量式爬虫 ...

2019-04-10 17:57:42 343

原创 BeautifulSoup

cmd进入workon env1(进入env1虚拟环境)pip install beautifulsou下载bs4四大对象种类:BeautifulSoup:将复杂HTML文档转换成一个复杂的树形结构Tag:标签NavigableString:标签里面的文本BeautifulSoup:整个DOM树Comment:注释(HTML注释<!-- -->)创...

2019-04-09 22:15:21 157

原创 scrapy--反爬

防止爬虫被反主要有以下几个策略:1.动态设置 User-Agent(随机切换 User-Agent,模拟不同用户的浏览器信息)2.随机切换ip:1.request.meta['proxy'] = 'xxx.xx.xx.xxx:xx属性设置新的,接入ip代理池,2.下载中间件,3.动态网页:scrapy和selenium对接4.禁用cookies:有些网站通过 cookie 的...

2019-04-09 19:07:37 490

原创 爬虫---scrapy框架

什么是scrapy:组成部分:引擎:调度器,下载器,爬虫模块,管道存储数据,下载中间件,spider中间件步骤: 引擎---队列--引擎, 引擎---下载----外部服务器请求源码---引擎, 引擎---爬虫提取数据item对象---引擎---pipe去重存储安装: cmd中进入虚拟环境workon en...

2019-04-04 17:46:53 110

原创 爬虫--验证码,代理IP池

思路一:Cookie 登录(最简单最方便)cooke 都会保持较长的一段时间,避免因用户频繁输入账号和密码造成的不便.我们可以利用这个特性,当我们登录成功一次之后,可以将 cooke 信息保存到本地, 放入headers中,下次登录时直接使用 cooke 登录思路二:传统图形验证码传统的验证码即传统的输入型验证码, 可以是数字、字母和汉字这类验证码不涉及验证码含义的分析,...

2019-04-03 19:16:31 472

原创 爬虫--selenium,PhantomJS

数据提取库:bs4最简单,xpath中,re正则难动态页面爬取环境配置,安装软件:1.seleniumcmd: > workon env1 >pip installselenium >pip list2.PhantomJS1、解压放到:C:\phantomjs-2.1.1-windows2...

2019-04-01 17:35:42 234

原创 re 正则

cmd:workon env1pip install jupyterjupyter notebookimport re 默认是非贪婪贪婪模式:匹配成功的情况下的前提下,尽可能多的匹配(*)非贪婪模式:匹配成功的情况下的前提下,尽可能少的匹配(?)ab*(abbbb),ab*?(a),ab+?(ab) 正则表达式 一:Pattern实例对象也可...

2019-03-29 11:39:34 202

原创 面试

分析项目,可行性分析,静态页面和动态页面,反爬,制定方案,请求库和提取库,预估多长时间完成,共同的目标存储,让测试测试,异常处理,跟踪数据爬取,迁移给外部项目315面试应用软件在架构上分:(b/s,c/s)事务:(原子性,一致性,隔离性,持久性)主键:(具有唯一性)状态码:(200成功,300重定向,4**客服端如404路径错误,403跨站台请求伪造,5**服务器错误)...

2019-03-28 09:20:14 140

原创 爬虫002

xml:可扩展标记语言使用场景:1.跨平台,2.异构客户端,3.作为项目数据源,4.作为页面的数据源,5.作为框架的配置文件xml和json:1.都是用来传输和存储数据2.xml是以标签形式存在的,json是纯数据3.xml文件比json传输时要大,所以传输占用资源,速度慢4.xml需要解析,浪费时间 xml: <perso...

2019-03-27 14:13:15 95

原创 爬虫001

学习路线图爬虫: 1.页面请求库(requests,), 2.数据提取(xpath,bs4,re正则) 3.数据存储(文本格式txt,.csv,.json,mysql,mongodb,redis) 4.动态页面的处理:selenium+浏览器,分析请求响应过程(ajax) 5.验证码: 6.coo...

2019-03-25 22:00:47 220

原创 django20---1.request存储user,2.登录装饰器,3.登录路径判断

session在内存中,默认保持两周,session可以交给register。last_login:最后登录时间,is_superuser:超级管理员(1是,0否),username:用户名称,first_name,last_name:姓和名email:邮件,is_staff:登录后台权限(1有,0否),is_active:用户是否被锁定(封账号),dat...

2019-03-16 15:15:43 2147

原创 django出错题

获取登录用户,外键必须为是一个对象, 无法分配“'lzj'”:“地址。用户必须是一个“用户”实例 username = request.session['loginuser'] user = models.Users.objects.get(username=username)address = models.Address(users=user,....)address.s...

2019-03-12 20:16:21 121

原创 Linux命令

ls --help:一般是linux命令自带的帮助信息man ls : man是linux提供的一个手册,包含了绝大部分的命令、函数使用说明 空格键:下一屏,Enter键:一次滚动一行 b:回滚一屏,f:前滚一屏,q:退出,h列出所有功能 /word:搜索word字符串自动补全:tab...

2019-03-09 18:11:40 75

原创 django17--发送邮件

发邮件:客户端,服务端使用流程: 1)在账号里面开启服务 2)在settings里面作设置 其中密码输入的是授权码 3)写视图函数 4)配置路由发短信和发邮件都会存在发不成功的可能: 网络 垃圾邮件 ...

2019-03-07 16:48:33 116

原创 django16--全文搜索

1,全文搜索引擎 Django提供haystack来支持全文搜索。 需要的依赖: haystack whoosh jieba 使用流程: 1)下载依赖 2)配置haystack应用 3)配置搜索引擎 4)设置搜索结果的分页 ...

2019-03-07 15:26:34 441 1

原创 django15--分页

在视图views.py中内容# 分页from django.core.paginator import Paginator, Pagedef page1(request): # 查找所有用户 user = models.User.um.all() # pagena = Paginator(user, 5) # 第一种方法加形参,第二种方法用...

2019-03-06 20:18:46 80

原创 django14--后台管理

提前注册用户 命令:python manage.py createsuperuser在admin.py中,类注册的三种方法:1.admin.site.register(models.User, UserAdmin)2. 导入模块:from django.contrib import admin 在类上加装饰器 @admin.register(models.User)以上...

2019-03-06 20:13:45 247

原创 django13--redis缓存

缓存:为什么要使用缓存: 提高系统的反应速度,减少数据库压力 使用缓存时,要注意和数据库数据的同步问题缓存的技术支撑: 硬件上:内存,硬盘 软件上:缓存系统,比如:redis,mongoDB使用redis做缓存: 1)下载中间件:django-redis 2)在settings里面作配置 ...

2019-03-06 19:39:01 115

原创 django12--会话跟踪

会话跟踪会话解决http协议无状态无连接带来的问题就是一个客户端和服务端完整的交流过程,会包含很多的请求。对于整个过程中重要的数据进行记录和还原的技术,就是会话跟踪技术,也叫状态保持。会话跟踪对象: Session: 1.保存在服务器端 2.存储的数据原则上不限制大小,格式随意 Cookie: 1...

2019-03-05 21:01:52 75

原创 django11--上传头像图片文件"

"第一种方法:普通字段CharField上传图片文件"1.在models中,写入属性:avater = models.CharField(max_length=255, default="/static/myblog/git.png")2.迁移数据:python manage.py makemigrations 同步数据库:python manage.py migrate...

2019-03-05 20:56:24 217

原创 Django06--之富文本编辑器和注册后台管理平台

Django之富文本编辑器1.下载:django-tinymce2.设置settings中:添加一个应用INSTALLED_APPS = [ 'tinymce' ]3.在设置settings中,添加富文本编辑器的设置TINYMCE_JS_URL = "/static/tiny_mce/tiny_mce.js"TINYMCE_JS_ROOT = "/static/tiny_...

2019-03-05 20:35:55 144

原创 xml:可扩展标记语言

xml:可扩展标记语言使用场景: 1.跨平台 2.异构客户端 3.作为项目数据源 4.作为页面的数据源 5.作为框架的配置文件xml和json 1.都是用来传输和存储数据 2.xml是以标签形式存在的,json是纯数据 xml: ...

2019-03-05 20:35:39 177

原创 django07验证码

验证码:验证码图片类型: 1.找符合条件的图片 2.字体倒着的找出来 3.拖动拼图 4.计算数据的 5.按顺序电字 6.旋转角度 7.识别上面的数字字母需求:图片,随机的数字字母组合,干扰线,滤镜步骤: 1.下载pillow这个库 ...

2019-03-05 20:35:20 137

原创 django08--跨域请求伪造和AJAX

5,跨域请求伪造post请求需要对后台产生副作用,所以需要跨域请求伪造的方法。,因为我们的django框架,默认帮我们开启了这个验证,如果说验证不能通过就会报403错误。默认开启是在settings中启用了,csrf的中间件。MIDDLEWARE = [ # csrf_token中间件 'django.middleware.csrf.CsrfViewMi...

2019-03-05 20:35:05 197

原创 django10--form表单封装

form表单封装使用1.在子模块下创建forms.py文件, 然后创建类, label="姓名"目的把输入框前的英文改为中文 from django import forms class UserForm(forms.Form): name = forms.CharField(max_length=40, min_length=2, label="...

2019-03-05 20:34:15 324

原创 django09--事务的流程

1,事务就是来保障我们数据的安全,把一块完整的操作(包括多个操作逻辑)看成一个完整单元,要么全部成功,要么全部失败。事务四个特性(ACID):原子性,一致性,隔离性,持久性 事务放到我们的业务逻辑中来处理,不能等到数据库那一关。事务的并发:可以提高服务器资源利用的造成的问题:1.脏读,2.幻读,3.不可重复读,4.丢失更新解决事务并发产生的问题:设定隔离级...

2019-03-05 19:54:05 114

原创 django05

注意post和get请求时urlget请求框架会自动补全最后一个斜杠post请求不行,必须写完整post请求会做防盗链检验如果报403错误,加上标签{% csrf_token %}面向对象思想:封装:提高数据安全性继承:解决代码纵向重复性,提高复用性多态:提高代码灵活性,提高扩展性技术进步的原则:简单,高效,安全模板与静态资源:(1)子模...

2019-03-01 18:02:20 251

翻译 django04--视图

RESTful风格(1)携带参数:更加安全 1.位置参数:(\d+) 配置路由的时候需要提供一个放置参数的位置 视图函数,提供一个形参来接受 2.命名参数:(?P&lt;name&gt;\w+) 配置路由的时候需要提供一个放置参数的位置同时给他起个 名字...

2019-02-28 18:46:01 71

原创 django03

1.状态码200,403,404,5001** 信息,服务器收到请求,需要请求者继续执行操作2** 成功,操作被成功接收并处理3** 重定向,需要进一步的操作以完成请求4** 客户端错误,请求包含语法错误或无法完成请求5** 服务器错误,服务器在处理请求的过程中发生了错2.根模块:有着特殊的作用,不妨业务逻辑代码就是起着支柱作用3.应用搭建创...

2019-02-27 11:37:42 121

原创 django知识02

编程硬件三大件:CPU,内存,硬盘CPU(中央处理器):是一块超大规模的集成电路,是一台计算机的运算核心(Core)和控制核心( Control Unit)。它的功能主要是解释计算机指令以及处理计算机软件中的数据。CPU包括运算逻辑部件、寄存器部件和控制部件等它与内部存储器(Memory)和输入/输出(I/O)设备合称为电子计算机三大核心部件。分布式:          ...

2019-02-26 14:16:04 76

原创 django知识01

软件软件:计算机中按照特定的顺序组织的计算机数据和指令的集合,是一个或者一些功能实现的集合,简而言之,软件就是计算机中可运行的程序。(将一些需要处理的想法,变成计算机能够识别并且实现的一系列有组织的数据和指令集合)软件发展历程:单一任务,静态软件,动态交互软件,面向服务,微软件。软件分类:操作系统,应用软件,中间件一:操作系统:直接安装在计算机硬件上进行数据交互的大型软件, ...

2019-02-25 21:16:58 207

原创 python工作扩展了解

web开发为基础大数据来源:爬虫人工智能以大数据为基础云计算物联网开发流程:       需求收集-------产品经理       需求分析--------产品经理,架构师(五种以上架构系统)       架构---------------架构师(高级工程师)       架构模式       设计--------------设计工程师(中级工程师)设计模式...

2019-02-25 14:05:25 70

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除