自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(55)
  • 收藏
  • 关注

原创 Kafka面试宝典

死信队列:可以看作消费者不能处理收到的消息,也可以看作消费者不想处理收到的消息,还可以看作不符合处理要求的消息。重试队列:可以看作一种回退队列,具体指消费端消费消息失败时,为了防止消息无故丢失而重新将消息回滚到 broker 中,重试队列一般分成多个重试等级,每个重试等级一般也会设置重新投递延时,重试次数越多投递延时就越大;Kafka的那些设计让它有如此高的性能:分区,顺序写磁盘,0-copy,稀疏索引利用二分查找找到对应数据,批量文件压缩。如果我指定了一个offset,Kafka怎么查找到对应的消息?

2024-04-01 12:28:39 727

原创 MySql总结

顾名思义,就是最左优先,在创建多列索引时,要根据业务需求,where 子句中使用最频繁的一列放在最左边。最左前缀匹配原则,非常重要的原则,MySQL 会一直向右匹配直到遇到范围查询(>、 3 and d = 4 如果建立(a,b,c,d)顺序的索引,d 是用不到索引的,如果建立(a,b,d,c)的索引则都可以用到,a,b,d 的顺序可以任意调整。

2024-03-19 21:12:51 598

原创 后端面试问题

数据库基础1、char 和 varchar 的区别2、int(20) 是什么意思3、select 语句的执行顺序4、什么是索引,mysql 的索引的底层实现5、什么是事务?事务的四大特性6、innodb 和 myiasm 的区别7、什么是乐观锁和悲观锁数据库进阶1、事务隔离级别(什么是幻读、脏读、不可重复读)2、mysql 的 redo log、undo log 及 binlog3、innodb 和 myiasm 的锁的粒度。

2024-02-26 13:41:35 972

原创 golang ES 聚合查询

demo 查询2个城市下的信息和uv。demo 统计不同媒体类型的设备数。es 根据输入查询的参数分桶计算。Es通过脚本的方式计算每条数据。求最大值,最小,平均,求和。es 围栏的方式查询数据。

2024-02-26 13:40:10 463

原创 go常用模型

文件名:对应测试函数文件名+“_test”

2024-02-26 13:38:20 271

原创 简单的评论服务

评论服务,接口:评论发布、回复评论、拉取评论、拉取回复、点赞、举报评论、删除评论等数据库表:评论数据使用三个表存储:主评论表、回复表、点赞表发评论:对用户的评论进行校验...

2022-04-17 12:15:18 332

原创 公司可能会用到的内容抓取系统爬虫服务

设计框架结构对于大型的爬虫系统,保障系统的平稳运行和效率是十分重要的,通常公司会采用微服务架构进行拆分,对每一块业务封装单独的服务,下面根据公司可能使用的业务框架进行分析BrowserServer:该服务主要作为获取网页html的手段;CrawlerSpider:作为爬虫启动入口,设置定时任务启动执行,检查网站是否有更新,根据需要设置不同的媒体内容,如图片,视频,文字内容等创建不同的任务;CrawlerEngine:消费爬虫任务,对本次任务设定唯一的id作为标识符,会根据不同的任务内容如视频,

2022-04-16 22:14:53 606

原创 js逆向分析-有道翻译

js加密一直是困扰数据抓取的难题,但总有办法,总结下经验一起学习有道翻译接口初探url地址:http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule通过分析请求头可以看到使用的post请求请求是通过异步往服务器发送数据主要有以下参数,一群看不懂的东西不用说肯定是加密信息i: dogfrom: AUTOto: AUTOsmartresult: dictclient: fanyideskwebsal

2021-02-24 21:21:46 253

原创 python 进阶之异步编程之asyncio

·同步是指完成事务的逻辑,先执行第一个事务,如果阻塞了,会一直等待,直到这个事务完成,再执行第二个事务,顺序执行。。。·异步是和同步相对的,异步是指在处理调用这个事务的之后,不会等待这个事务的处理结果,直接处理第二个事务去了,通过状态、通知、回调来通知调用者处理结果。为什么要使用异步?在Python中,IO密集型的网络编程里,异步处理比同步处理能提升成百上千倍的效率,弥补了python性能方面的短板在Python3.5之后加入asyncio模块asyncio 提供一组 高层级 API 用于:并

2020-07-31 22:31:08 248

原创 Python+selenium获取BOSS招聘信息最新

久了没有动,感觉挺难受的,听过各大网站都加强了反爬措施,今天来试试BOSS直接selenium搞起,这不还真遇到了问题一经查看原来是增加了selenium检测啊还难不倒我,配置浏览器设置参数即可解决直接上代码# -*- coding:utf-8 -*-'''BOSS招聘爬取'''from selenium import webdriverimport csvimport ...

2020-03-29 11:35:03 422 3

原创 Ajax传参配合Django范例

直接上代码分析使用的时候和平常没有什么差别主要注意传POST请求时,Django中的csr限制只需要在页面中传入csrfmiddlewaretoken的值,ajax提取传到后端即可<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title&g...

2020-02-17 15:17:49 251

原创 软考程序员考试总结,零经验一次过

首先放张图这是我的成果(嘻嘻运气加实力)说下这次考试,我是在考试报名后开始复习的,毕竟交了考试费,上百大洋啊(心疼),可不能白白浪费了由于大学学的是计算机相关专业,所以有基础复习也比较轻松,个人也没有参加这种考试,零经验,心里没底资料准备的话起初看电子书教材,但是觉得不方便,于是网上淘了一本复习题解,有空就翻翻,然后手机上练练题。整个要考的知识框架大概了解下,然后就是复习自己的薄弱环节...

2019-12-16 19:31:24 1225 1

原创 Python进阶爬虫滑动验证码最新解决

今天给大家带来的是滑动验证码的selenium破解之法,参考网络资源最后总结而来,废话不多直入主题。解析过程首先获取目标网站的验证码图片,没有缺口和有缺口的图片对比两张图片的所有RBG像素点,得到不一样像素点的x值,即要移动的距离distance模拟人的行为习惯(先匀加速拖动后匀减速拖动),把拖动的总距离分成一段一段小的轨迹按照轨迹拖动,完成验证案例过程这里我使用的是博客园验证码...

2019-10-13 16:20:36 441

原创 Python验证码识别图像二值化去除噪点(tesseract识别数字字母)

一、Python爬虫验证码识别1、开发环境tesseractPython3 :PIL pytesseract关于环境搭建网上教程很多,环境变量配置好后,终端输入tesseract -v这就代表环境搭建成功tesseract 123.jpg result -l engresult 表示输出文档名-l 表示选择的语言2、原始数据数据3、识别大概步骤图像二值化去除图...

2019-10-04 16:59:33 6132 2

原创 pyspider框架使用实例

PySpider框架 ,个人认为非常方便并且功能强大的爬虫框架,支持多线程爬取、JS动态解析,提供了可操作界面、出错重试、定时爬取等等的功能,使用非常人性化。self.crawl(url, **kwargs)self.crawl是告诉pyspider应该抓取哪个url的主界面。url要抓取的网址或网址列表。callback解析响应的方法。default:_ call _ _一个项目有...

2019-08-31 20:21:09 381

原创 Python爬虫网络requests库详解各种使用方法

实例import requestsresponse = requests.get('https://www.baidu.com/')print(type(response))print(response.status_code)print(type(response.text))print(response.text)print(response.cookies)各种请求方式...

2019-08-25 10:54:39 305 1

原创 Python网络urlllib库详解常用的使用操作最全

py2和py3使用区别最简单的请求方式urlopenurllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)import urllib.requestresponse = urllib.request.urlopen('ht...

2019-08-25 10:23:59 1966

原创 一文看懂什么是网络爬虫

1、什么是爬虫?请求网站并提取数据的自动化程序2、爬虫基本流程发起请求: 通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器响应。 获取响应内容: 获取响应内容如果服务器能正常响应,会得到一个Response,esponse的内容便是所要获取...

2019-08-24 17:41:02 234

原创 Linux安装docker---dockers安装es

安装docker本次我使用的Ubuntu16.4,其中也遇到了很多坑,具体安装步骤参考官网,准没有错,官网是最权威的docker官网安装指南Ubuntu等拉取镜像速度慢的问题国内拉取镜像的话可能会比较忙,这里提高加速的方法Ubuntu 16.04+、Debian 8+、CentOS 7对于使用 systemd 的系统,请在 /etc/docker/daemon.json 中写入如下内容...

2019-01-26 22:42:04 1481

原创 django实现文件下载功能

django实现文件下载注意解决下载文件名问题,导入from django.utils.encoding import escape_uri_path下载失败很多时候也是[“Content-type”]设置有问题import loggingimport requestsfrom django.http import Http404, FileResponsefrom django...

2019-01-24 19:38:54 536

原创 django 详解Admin后台管理

1准备工作:创建管理员的用户名和密码。python manage.py createsuperuser2本地化在setting文件中更改:LANGUAGE_CODE = 'zh-hans'TIME_ZONE = 'Asia/Shanghai'3在应用的admin.py中注册模型类打开booktest/admin.py文件,注册地区模型。from django.contrib...

2018-11-28 20:42:05 377

原创 django中间件

中间件Django中的中间件是一个轻量级、底层的插件系统,可以介入Django的请求和响应处理过程,修改Django的输入或输出。中间件的设计为开发者提供了一种无侵入式的开发方式,增强了Django框架的健壮性,其它的MVC框架也有这个功能,名称为IoC。使用:1)项目目录下新建middleware.py文件。# -*- coding:utf-8 -*-from django.http...

2018-11-28 19:20:23 138

原创 django手动生成验证码

验证码的作用在用户注册、登录页面,为了防止暴力请求,可以加入验证码功能,如果验证码错误,则不需要继续处理,可以减轻业务服务器、数据库服务器的压力。这种代码在网上可以搜到很多。首先安装包Pillow3.4.1。pip install Pillow==3.4.1在booktest/views.py文件中,创建视图verify_code。提示1:随机生成字符串后存入session中,用于...

2018-11-28 14:59:53 242

原创 django的HTML转义

编辑商品详情信息,数据表中保存的是html内容。在模板上下文中的html标记默认是会被转义的。小于号&lt; 转换为&amp;lt;大于号&gt; 转换为&amp;gt;单引号' 转换为&amp;#39;双引号" 转换为 &amp;quot;与符号&amp; 转换为 &amp;amp;要关闭模板上下文字符串的转义:可以使用 {{ 模板变量|safe}}也可以使用:{% auto...

2018-11-28 14:08:25 367

原创 django的url反向解析详解

反向解析的用途当某一个url配置的地址发生变化时,页面上使用反向解析生成地址的位置不需要发生变化。根据url 正则表达式的配置动态的生成url。在项目urls中包含具体应用的urls文件时指定namespace;urlpatterns = [ url(r'^admin/', include(admin.site.urls)), url(r'^',include('boo...

2018-11-28 13:54:46 808

原创 djiango模板

1. 模板文件的使用静态部分,包含html、css、js。动态部分,就是模板语言render方法实现的步骤def my_render(request): # 1.加载模板文件,获取一个模板对象 temp = loader.get_template('booktest/index.html') # 2.定义模板上下文,给模板传参数 context = Requ...

2018-11-28 09:52:56 1920

原创 django关于cookie的用法

状态保持浏览器请求服务器是无状态的。无状态指一次用户请求时,浏览器、服务器无法知道之前这个用户做过什么,每次请求都是一次新的请求。无状态的应用层面的原因是:浏览器和服务器之间的通信都遵守HTTP协议。根本原因是:浏览器与服务器是使用Socket套接字进行通信的,服务器将请求结果返回给浏览器之后,会关闭当前的Socket连接,而且服务器也会在处理页面完毕之后销毁页面对象。有时需要保存下来用户浏览...

2018-11-27 20:26:21 172

原创 scrapy通用随机下载延迟、IP代理、UA

目录结构main.py文件# -*- coding:utf-8 -*-from scrapy import cmdlinecmdline.execute('scrapy crawl test'.split())settings.py文件# -*- coding: utf-8 -*-BOT_NAME = 'mytest'SPIDER_MODULES = ['myt...

2018-11-25 15:41:29 4070

原创 多进程和多线程复习

定义进程是系统进行资源分配和调度的一个独立单位.线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位.线程自己基本上不拥有系统资源,只拥有一点在运行中必不可少的资源(如程序计数器,一组寄存器和栈),但是它可与同属一个进程的其他的线程共享进程所拥有的全部资源.区别一个程序至少有一个进程,一个进程至少有一个线程.线程的划分尺度小于进程(资源比进程少)...

2018-11-24 18:01:30 157

原创 udp通信和利用tcp搭建文件下载系统

udp通信发送# -*- coding:utf-8 -*-import socketdef main(): # 创建套接字 udp_socket = socket.socket(socket.AF_INET,socket.SOCK_DGRAM) #绑定端口 #发送,udp发送不用绑定地址,只需要指明发送的地址即可, data = '哈哈' ...

2018-11-19 21:06:24 200

原创 python实现冒泡选择插入快排

冒泡排序通过交换使相邻的两个数变成小数在前大数在后,这样每次遍历后,最大的数就“沉”到最后面了。重复N次即可以使数组有序。def butttle(arr): for i in range(len(arr)-1): exchange = False for j in range(len(arr)-i-1): if arr[j]&amp;amp;amp;gt...

2018-11-15 16:04:15 201

原创 爬虫分模块写法

这里主要分成五个模块调度器url管理器下载器解析器数据处理import requestsfrom fake_useragent import UserAgentfrom lxml import etree# url管理class UrlManager(object): def __init__(self): self.new_url = [] ...

2018-11-13 15:39:55 252

原创 xadmin安装与使用Django2.0

Python3 &amp;amp; Django2.0.1安装官方适配Django2.0的包pip install git+git://github.com/sshwsfc/xadmin.git@django2注册Xadmin 与 crispy-formsMxonline2/settings.py的INSTALLED_APPS中 'xadmin', 'crispy_forms'...

2018-11-08 08:19:52 201

原创 mongodb使用+scrapy中使用

安装去官网下载解压这里贴上windows版本下载地址https://fastdl.mongodb.org/win32/mongodb-win32-x86_64-2008plus-ssl-4.0.3.zip在解压目录下创建文件夹data\db作为数据库路径为了方便使用可以写一个脚本文件start.bat内容如下D:\mongodb-win32-x86_64-2008plus-ssl-4...

2018-11-06 16:10:09 171

原创 scrapy中间件源码提升爬虫质量

Request源码cookies 接受一个字典&quot;&quot;&quot;This module implements the Request class which is used to represent HTTPrequests in Scrapy.See documentation in docs/topics/request-response.rst&quot;&quot;&quot;import sixfrom w3l..

2018-11-06 14:33:16 669

原创 使用selenium进行多窗口处理demo

使用selenium需要启动浏览器,当然必要的环境肯定要支持啦,做爬虫效率也没有框架来的快,但是我喜欢啊(调皮)这是一个可以进行多窗口抓取的demo,可以根据自己的需求进行更改from selenium import webdriverfrom selenium.webdriver.common.by import By# WebDriverWait 库,负责循环等待from sele...

2018-11-01 16:39:48 1406

原创 selenium经常使用的一些小技巧

selenium十分强大,可以解决我们爬虫时遇到的许多问题,比如js,ajax等,废话不多,直接上代码。使用selenium,我们可以通过代理访问网站from selenium import webdriveroptions = webdriver.ChromeOptions()options.add_argument('--proxy-server=https://47.104.2...

2018-11-01 16:29:16 508

原创 常用浏览器User-Agent列表

常用浏览器User-Agent大全agent = [ 'Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;AvantBrowser)', 'Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;360SE)', 'Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;...

2018-10-19 16:16:21 7522

原创 python+sklearn+基于贝叶斯实现商品评论情感分类

朴素贝叶斯理论推导与三种常见模型import jiebaimport jieba.posseg as psegimport jsonimport refrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.feature_extraction.text import CountVectorizer...

2018-10-19 14:22:13 1726

原创 python 处理CSV文件

读取import csvwith open('test.csv','r',encoding='utf8') as csvfile: reader = csv.reader(csvfile) for i in reader: print(i)写入key_words = [111,222,333]out = open('test.csv','a',new...

2018-10-18 10:30:19 155

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除