自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 资源 (3)
  • 收藏
  • 关注

原创 selenium pyppeteer

记录demo

2022-02-10 19:51:15 7497

原创 基于go实现并发下载工具

/* * @Author: xiangcai * @Date: 2021-11-02 19:52:51 * @LastEditors: xiangcai * @LastEditTime: 2021-11-03 15:40:23 * @Description: file content */package mainimport ( "encoding/json" "errors" "flag" "fmt" "io" "io/ioutil" "net/http" "net/u.

2021-11-03 15:45:45 182

原创 python rabbitmq demo

#!/usr/bin/env python# -*- coding=utf8 -*-import asynciofrom typing import Unionfrom yarl import URLfrom pamqp import specification as specfrom aio_pika.exceptions import ChannelClosedfrom aio_pika import RobustConnection, RobustChannel, Message.

2021-10-15 17:38:07 252

原创 alembic迁移不依赖配置文件

工作目录: __init__.py#!/usr/bin/env python# -*- coding=utf8 -*-import osif __name__ != '__main__': import sys CUR_DIR = os.path.dirname(os.path.abspath(__file__)) PROJECT_DIR = os.path.dirname(CUR_DIR) sys.path.insert(0, PROJECT_DIR)

2021-09-28 20:39:50 244

原创 sqlalchemy-migrate

工作目录: __init__.py#!/usr/bin/env python# -*- coding=utf8 -*-import osimport sysCUR_DIR = os.path.dirname(os.path.abspath(__file__))PROJECT_DIR = os.path.dirname(CUR_DIR)sys.path.insert(0, PROJECT_DIR)sys.path.insert(0, CUR_DIR)# db仓库地址REPO_PAT

2021-09-28 16:37:19 240

原创 docker-compose启动mysql、redis服务

1.自行安装docker和docker-composecentos用户可将以下代码cp到shell文件执行#!/bin/bash<<!判断服务是否已安装参数 是否必须服务名 是返回值 1/0(是否存在)!function is_exist(){ ret=`$1 --version` echo $ret if [ -n "$r...

2020-02-17 17:20:16 531

原创 python实现elasticsearch链接池

# -*- coding=utf8 -*-import osimport jsonfrom datetime import datetimefrom elasticsearch import Elasticsearch, RequestsHttpConnectionfrom elasticsearch import Transportfrom elasticsearch.excep...

2019-10-17 16:30:45 2645

原创 python企业微信报警服务

1.登录企业微信后台若没有可进行注册:https://work.weixin.qq.com/wework_admin/register_wx?from=myhome_mp_home2.创建部门:通讯录--添加部门(给此部门的成员提供报警消息)--添加成员--记录部门id3.创建应用:应用管理--自建--创建应用--填写信息(选择刚刚创建的部门)记录agent_id,secret...

2019-09-26 20:49:28 272

原创 基于centos7-python3的scrapyd镜像

创建Dockerfile文件############################################### 基于centos7、python3构建scrapy、scrapyd运行环境# 构建命令: 在Dockerfile文件目录下执行 docker build -t centos7-python3-scrapyd .# 容器启动命令: docker run -itd -...

2019-08-04 23:13:45 380 1

原创 docker基本操作三(Dockerfile的使用)

        使用docker commit创建镜像时我们需要先基于镜像运行一个容器,然后进入容器修改后保存为一个新镜像。        使用Dockerfile定制镜像的时候我们就不需要先启动一个容器了,但是我们仍然需要基于一个容器,当然我们可以基于一个空的容器来实现全diy。使用Dockerfile定制镜像我们就更容易理解容器是一层一层的了。最简单的我们实现之前我们用commit保存...

2018-08-31 18:42:28 473

原创 daoker基本操作二(容器的基本操作)

之前提到过镜像和容器的关系就像面向对象思想中类和实例的关系,启动一个容器就好比实例化某个镜像1.启动镜像 :docker run命令:docker run [选项] 仓库名[:标签] [指令]常用参数:-a stdin: 指定标准输入输出内容类型,可选 STDIN/STDOUT/STDERR 三项;-d: 后台运行容器,并返回容器ID;-i: 以交互模式运行容器,通常与 -...

2018-08-30 18:01:43 1120

原创 docker:配置 Docker 加速器

如果我们配置的镜像源是官方的镜像源,拉取镜像的时候有可能会比较慢我们可以配置镜像加速器(免费)首现进入网址:https://www.daocloud.io/注册自己的账号(可以直接绑定github账号和微信账号)注册成功后进入控制台后点击右上方的小火箭图标点击之后会跳转到另外一个页面等待命令生成后,copy命令到控制台运行即可根据各自的系统按照提示执行就可以如我是l...

2018-08-30 17:09:03 304

原创 docker基本操作一(拉取和删除镜像)

docker的三个基本概念:仓库、镜像、容器(镜像和容器之间的关系可以理解为“类和实例”的关系)(todo)centos使用docker有必要配置direct-lvm1.拉取镜像docker pull [选项] [仓库地址[:端口号]/]仓库名:标签如果未给出仓库地址则默认从官方(Docker Hub)仓库(library)拉取,即官方镜像           如:docker ...

2018-08-29 18:12:00 8802

翻译 nltk:python自然语言处理四 相似性度量

nltk中的metrics模块中提供了各种评估或相似性度量的方法:1.通过计算编辑距离执行相似性度量# 编辑距离:为了使两个字符串形同 所需插入、替换或删除的字符数量如:"text"到"test"的编辑距离为1,"good"到"looking"的编剧距离为5from nltk.metrics import edit_distanceprint edit_distance("g...

2018-08-28 21:27:42 1597

翻译 nltk:python自然语言处理三 标准化

文本的标注化处理主要涉及清楚标点符号、统一大小写、数字的处理、扩展缩略词等文本的规范化操作1.清除标点import reimport stringfrom nltk import word_tokenizetext = """I Love there things in this world. Sun, Moon and You. Sun for morning, Moon...

2018-08-08 15:33:45 1720

原创 nltk:python自然语言处理二

前面的一些分词工具都是写好的的规则如果我们想按照自己的规则进行分词 可以使用正则分词器1.RegexpTokenizer类from nltk.tokenize import RegexpTokenizertext = " I won't just survive, Oh, you will see me thrive. Can't write my story,I'm beyon...

2018-08-08 13:09:39 1211

原创 nltk:python自然语言处理一

环境:1.安装nltk:pip install nltk   注:windows如果提示需要安装依赖包msgpack    pip install msgpack2.nltk_data的下载交互模式:import nltknltk.download()   【windows:nltk.download_shell()】输入:d     进入下载器输入:all   开始下...

2018-08-07 22:08:04 868

原创 python:多进程日志轮转ConcurrentLogHandler

记录日志是我们程序中必不可少的一个功能,但是日志文件如果没有合理的管理,时间长了几百兆的日志文件就很难分析了(都不想打开看),但是又不可能经常手动去管理它日志轮转:根据时间或者文件大小控制日志的文件个数,不用我们手动管理python中logging模块内置的有几个支持日志轮转的handler常用的有TimedRotatingFileHandler根据时间轮转RotatingFil...

2018-07-31 19:02:01 11831

原创 数据结构之双端队列:python实现简单的双端队列

双端队列:是一种具有栈和队列性质的数据结构栈和队列只能从一端添加元素,也只能从一端删除元素双端队列可以从任意一端添加或删除元素使用python列表实现代码:class Deque(object): """双端队列""" def __init__(self): self.items = list() def is_empty(self):...

2018-07-25 12:15:20 264

原创 数据结构之队列:python实现简单的队列

队列同栈一样是一个容器队列的原理:FIFO(First in First OUt)先进先出队列同样可以用顺序表和链表实现使用python列表实现代码: class Queue(object): """队列""" def __init__(self): self.items = list() def is_empty(self): ...

2018-07-25 11:51:34 295

原创 数据结构之栈:python实现简单的堆栈

栈:是一种容器,可存入数据元素、访问元素、删除元素特点:只能从顶部插入(入栈)数据和删除(出栈)数据原理:LIFO(Last In First Out)后进先出栈可以使用顺序表实现也可使用链表实现使用python列表实现代码: class Stack(object): """ 栈 使用python列表实现 """ def __in...

2018-07-25 11:39:16 315

原创 数据结构三:python实现简单的单向循环链表

单向循环链表只有对头结点和尾部结点有增删操作的时候跟单向链表不同这里继承了之前的单向链表的类实现代码:from node import BaseNodefrom single_linked_list import SingleLinkedListclass OneAwayLoopLinkedList(SingleLinkedList): """单向循环链表""" ...

2018-07-24 19:08:50 185

翻译 bloomfilter笔记:基于Redis的布隆过滤器

数据过滤问题是爬虫项目开发时极为重要的一个环节使用redis过滤的优点:速度快、可持久化问题:当需要过滤的数据量过大(上亿)的时候即使搭配MD5(字符级)占用内存仍然比较大,布隆过滤器优点:速度快、占用内存小(位级)问题:不支持持久化,down机即失效布隆过滤器的原理:https://blog.csdn.net/jiaomeng/article/details/1495500...

2018-07-20 19:26:54 898

原创 数据结构二:python实现简单的双向链表

1.双向链表的结点只是比单向链表的结点多一个属性前置结点这里双向结点的类继承了(上一篇)单向链表使用的结点的类class DoubleLinkedNode(BaseNode): """ 双向链接结点 """ def __init__(self, item): """双向链表的结点,就是比单向链表多一个前置结点的属性"""

2018-07-19 19:47:48 232

原创 数据结构一:python实现简单的单向链表

参照python基本数据类型list实现部分功能 :#!/usr/bin/env python# -*- coding: utf-8 -*-class BaseNode(object): """ 结点 """ def __init__(self, item): # 结点的值 self.item = item ...

2018-07-19 16:59:14 165

原创 linux根据进程名杀死进程

笔记:根据一个进程的名字或启动此进程的命令(连续的一部分即可)杀死进程一、使用单条命令ps -ef | grep 进程名/启动进程的命令 | grep -v grep | awk '{print $2}' | xargs kill -9测试:终端输入:sleep 200 &sleep 200 &ps -ef | grep sleep | grep -v ...

2018-07-12 19:45:02 12996

原创 python使用wxpy轻松实现微信防撤回

最近比较闲就随便瞎看,看到了微信防撤回就顺便跟着学着实现一下使用的是wxpy,安装方法pip install wxpy(我使用的是python2.7),这样实现起来比较快,反正也只是练手首现看了两个别人实现的代码,然后看了看wxpy的文档:http://wxpy.readthedocs.io/zh/latest/utils.html(萌新,顺便锻炼下看文档) 我实现的代码: ...

2018-07-11 11:36:42 2536

concurrent_downloader

高速下载器

2021-11-03

根据url自动生成对应的正则表达式

1.需要python环境2.7/3.6 2.使用方式:python 脚本名 url [可选参数s:数字] [可选参数c:True/False] 3.可选参数s的作用:指定从第几个'/'(不计算'://'中的'/')之前的字符串作为前缀,之后的正则化 默认为1 如:https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/123123 python rule_url_py2 "https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/123123" python rule_url_py2 "https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/123123" -s 2 可选参数-s的值为1和2,执行结果分别为: 1:https://blog\.csdn\.net/([^/]+/){3}[0-9]+ 2:https://blog\.csdn\.net/dQCFKyQDXYm3F8rB0/([^/]+/){2}[0-9]+ 4.可选参数c的作用:用来判定是否清除参数,默认值为false, 如:http://sports.sina.com.cn/zl/football/ihht3.shtml?cre=zhuanlanpc&mod=g python rule_url_py2 "http://sports.sina.com.cn/zl/football/ihht3.shtml?cre=zhuanlanpc&mod=g" python rule_url_py2 "http://sports.sina.com.cn/zl/football/ihht3.shtml?cre=zhuanlanpc&mod=g" -c True 可选参数c为False和True的结果分别为: False: http://sports\.sina\.com\.cn/([^/]+/){2}[a-zA-Z0-9]+\.[a-zA-Z]+\?cre=[^&]*&mod;=[^&]* True: http://sports\.sina\.com\.cn/([^/]+/){2}[a-zA-Z0-9]+\.[a-zA-Z]+\

2018-08-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除