自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 Win10 设置Python定时任务

文章目录Win10 设置Python定时任务Win10 中设置定时任务使用特定 Python 环境指定定时任务Win10 设置Python定时任务Win10 中设置定时任务在 Windows 系统下可以通过【任务计划程序】设置定时任务,在【计算机管理】–> 【系统工具】–> 【任务计划程序】中的【创建任务】创建定时任务:创建任务的窗口如下所示:在【常规】中的【安全选项】选择【不管用户是否登录都要运行】时,可以使定时任务在锁屏时也能运行。【触发器】中点击【新建】可以设置定时任务执行

2020-06-21 17:25:42 629

原创 Python 图像处理的库 Pillow,opencv 和 scikit-image 的基本用法

Python 图像处理的库 Pillow,opencv 和 scikit-image 的基本用法Pillow 包的使用Pillow 基本用法生成文字图片Image 图像与 base64 字符串互相转换Image 图像与 Numpy 数组相互转换scikit-image 的使用Open-CV参考:基于python脚本语言开发的数字图片处理包有 PIL,Pillow,opencv,scikit-im...

2020-05-02 21:30:54 1374

原创 Numpy 拼接数组的各种方式

Numpy 拼接数组的各种方式拼接方法介绍numpy.append(arr, values, axis=None)numpy.concatenate((a1, a2, ...), axis=0, out=None)stack(), hstack(), vstack()np.r_ 和 np.c_总结将两个一维数组拼接成一个更长的一维数组:将两个一维数组拼接成二维数组:拼接两个二维数组拼接方法介绍...

2020-05-01 18:27:59 1392

原创 Django + uWSGI + nginx 部署 Python Web 应用

Django + uWSGI + nginx 部署 Python Web 应用在实现一些算法模式后,考虑的就是模型的部署了。对于一些相对独立的模型应用,如 OCR 识别引擎等,部署为独立的 Web 应用,以提供 API 的供其他系统调用的方式将是一个不错的解决方案。此方案的优点有以下几个方面:模型应用与其他系统隔离,仅通过 web 请求调用,既能极大得扩展应用的兼容性,又便于模型的迭代升级。...

2019-09-20 22:15:55 361

原创 spark-submit 命令使用详解

spark-submit 命令使用详解spark-submit 用户打包 Spark 应用程序并部署到 Spark 支持的集群管理气上,命令语法如下:spark-submit [options] <python file> [app arguments]app arguments 是传递给应用程序的参数,常用的命令行参数如下所示:–master: 设置主节点 URL 的参数...

2019-09-06 20:38:08 5395 1

原创 批量修改图片像素大小:Python GUI 交互界面实现

批量修改图片像素大小:Python GUI 交互界面实现1、Python 修改图片像素大小Python 的 PIL 包可以实现图片的读写、像素大小的设置。安装 pillow 第三方模块:pip install pillow设置图片大小的示例代码:from PIL import Imageimg = Image.open('test.jpg')# 查看原始图片大小width_or...

2019-07-01 21:07:39 1155

原创 PySaprk 将 DataFrame 数据保存为 Hive 分区表

PySaprk 将 DataFrame 数据保存为 Hive 分区表创建 SparkSessionfrom pyspark.sql import SparkSessionspark = SparkSession.builder.enableHiveSupport().appName('test_app').getOrCreate()sc = spark.sparkContexthc =...

2019-06-28 18:10:48 4501

原创 数据预处理:PySpark 的实现线性插值填充缺失值

数据预处理:PySpark 的实现线性插值填充缺失值1. Python 实现线性插值填充缺失值实现函数为:def linear_insert(x1, y1, x2, y2, insert_x): if type(insert_x) == int: insert_x = [insert_x] k = (y2 - y1) / (x2 - x1) retur...

2019-06-06 15:57:08 1621

原创 pyspark 实现对列累积求和

pyspark 实现对列累积求和pandas 的 cumsum() 函数可以实现对列的累积求和。使用示例如下:import pandas as pddata = [1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0]data = pd.DataFrame(data, columns=['diff'])data['cumsum_num'] = data['diff'].cums...

2019-05-29 18:26:39 6315

原创 基于图像识别和文字识别用 Python 提取视频字幕

基于图像识别和文字识别用 Python 提取视频字幕本文介绍使用 Python 基于图像识别提取视频中的字幕,并使用文字识别将字幕转为纯文本。本文以权力的游戏第一季第一集作为示例。本文主要使用 OpenCV 读取视频并进行图像处理,需安装以下依赖的库:pip install opencv-pythonpip install Pillowpip install numpy1、使用 op...

2019-04-18 13:01:00 18233 29

原创 Python 爬虫:requests 和 selenium 伪装 headers 和代理应对反爬机制

Python 爬虫:requests 和 selenium 伪装 headers 和代理应对反爬机制目录1、requests 伪装 headers发送请求2、selenium 模拟使用浏览器伪装headers3、requests 使用 ip代理发送请求4、selenium webdriver 使用代理ip在编写爬虫的过程中,有些网站会设置反爬机制,对于非浏览器的访问拒...

2019-03-17 11:13:19 12652 3

原创 python 的 logging 模块日志功能使用详解

python 的 logging 模块日志功能使用详解目录一、logging 基本用法1、添加日志记录2、日志调用函数的使用3、日志输出级别4、设置日志输出格式二、创建 logger 对象三、给库或者模块添加日志记录四、使用配置文件设置日志的配置信息参考资料一、logging 基本用法1、添加日志记录给简单的程序添加日志功能,最简单的方法是使用 logging ...

2019-02-27 16:08:40 963

原创 keras 入门:卷积神经网络实现 MNIST 手写数字识别

keras 入门:卷积神经网络实现 MNIST 手写数字识别手写数字识别问题作为机器学习领域中的一个经典问题,本文介绍如何使用 keras 构建卷积神经网络模型实现 MNIST 手写数字识别。文本代码只需更换训练集目录,修改图片输入尺寸和类别数量等少量参数,即可直接应用到其他图像分类的问题中。一、数据准备关于如何解析 MNIST 数据集,可以参看另一片文章:python 读取 MNIST 数...

2019-02-15 11:21:42 3383 2

原创 python 读取 MNIST 数据集,并解析为图片文件

python 读取 MNIST 数据集,并解析为图片文件MNIST 是 Yann LeCun 收集创建的手写数字识别数据集,训练集有 60,000 张图片,测试集有 10,000 张图片。数据集链接为:http://yann.lecun.com/exdb/mnist/。数据集下载解压后有4个二进制 IDX 文件:train-images-idx3-ubyte: 训练集图片train-labe...

2019-02-15 11:18:58 6042 2

原创 预测回归二:局部加权回归和惩罚线性回归

预测回归二:局部加权回归和惩罚线性回归预测回归二:局部加权回归和惩罚线性回归一、局部加权回归原理python 代码实现二、惩罚线性回归2.1 岭回归2.2 lasso 缩减法2.3 ElasticNet 形式化2.4 求解惩罚线性回归问题一般的线性回归(关于线性回归的详细内容,参见另一篇文章:机器学习之预测回归一:简单线性回归)过于简单,容易出现欠拟合与过...

2019-02-12 15:52:21 1497

原创 机器学习之预测回归一:简单线性回归

线性规划从原理到实战

2019-02-12 12:47:11 584

原创 python 实现中文文本分类

python 实现中文文本分类本文基于 Python 采用 scikit-learn 模块实现中文文本分类。文本分类一、预处理1. 获取语料库语料库数据选用搜狗语料库的搜狐新闻数据精简版:http://www.sogou.com/labs/resource/cs.php。数据集介绍:来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和...

2019-02-01 16:20:14 21652 20

原创 python 爬虫获取网页 html 内容以及下载附件的方法

python 爬虫获取网页 html 内容以及下载附件的方法python 爬虫获取网页 html 内容的两种方法: 获取静态网页和使用浏览器获取动态内容。from urllib.request import urlopenfrom urllib import requestfrom bs4 import BeautifulSoupfrom urllib.request import ur...

2018-12-23 12:00:00 10437

原创 python 实现将office文件 (word, ppt, excel等) 转为pdf

python 实现将office文件 (word, ppt, excel等) 转为pdf在 windows 系统(需安装office套件)中,利用 python 的 win32com 包可以实现对Office文件的操作,可以批量转换为pdf文件。支持 doc, docx, ppt, pptx, xls, xlsx 等格式。win32com模块需要安装 pywin32:pip install ...

2018-12-22 15:22:55 12059 11

原创 python代码执行安装第三名模块或升级已安装模块

python代码执行安装第三名模块或升级已安装模块使用 subprocess 模块执行命令行命令, 当导入未安装的模块时,自动安装。import subprocesstry: import modulenameexcept ModuleNotFoundError : subprocess.call('pip install modulename', shell=True)...

2018-12-09 16:54:41 223

原创 Python 通过函数名的字符串调用对应的函数

Python 通过函数名的字符串调用对应的函数使用 getattr() 函数可以实现:class func_factory: def func_name1(self, x): print('func_name1', x) def func_name2(self, x): print('func_name2', x)f_factory = fu...

2018-12-09 16:43:51 1611 1

原创 java 中文文本分词

java 中文文本分词本文使用 classifier4J 以及 IKAnalyzer2012_u6 实现中文分词。可以增加自定义词库,词库保存为 “exdict.dic” 文件,一个词一行。// MyTokenizer.java 文件import java.io.BufferedReader;import java.io.File;import java.io.FileInpu...

2018-08-08 21:37:32 2140 1

原创 Python 图片与pdf相互转换

使用 Python 进行图片和pdf之间的相互转换使用到第三方库 PyMuPDF 在 python 环境下对 PDF 文件的操作。PDF 转为图片需新建文件夹 pdf2pngimport fitzimport globdef rightinput(desc): flag=True while(flag): instr = input(d...

2018-06-28 22:36:14 8598

原创 Python 利用百度文字识别 API 识别并提取图片中文字

Python 利用百度文字识别 API 识别并提取图片中文字利用百度 AI 开发平台的 OCR 文字识别 API 识别并提取图片中的文字。首先需注册获取 API 调用的 ID 和 key,步骤如下:打开百度AI开放平台,进入控制台中的文字识别应用(需要有百度账号)。创建一个应用,并进入管理应用,记下 AppID, API Key, Secrect Key,调用 API需用到。最后安...

2018-06-23 20:37:00 30160 42

原创 Java 使用阻塞队列 BlockingQueue 多线程搜索目录及子目录下包含关键字所有文件

Java 使用阻塞队列 BlockingQueue 多线程在一个目录及它的所以子目录下搜索所有文件,打印出包含关键字的行阻塞队列( blocking queue )生产者线程向队列插人元素, 消费者线程则取出它们。使用队列,可以安全地从一个线程向另一个线程传递数据。 工作者线程可以周期性地将中间结果存储在阻塞队列中。其他的工作者线程移出中间结果并进一步加以修改。队列会自动地平衡负载。如...

2018-06-23 19:55:48 585

原创 ipywidgets 包实现 jupyter notebook 的控件交互

ipywidgets 包可以实现 jupyter notebook 笔记本的交互式控件操作。from ipywidgets import interactimport ipywidgets as widgets首先定义一个用于操作的函数:def f1(x): return 2*x使用 interact() 函数传入函数名及其参数即可实现交互式控件。 数值型参数...

2018-03-11 18:45:15 8925 1

原创 Python 生成 GIF 文件

Python 生成 GIF 文件使用 Python 合成 gif 动态图,程序如下: 原图片需具有相同大小import imageioimport osimport os.pathdef create_gif(gif_name, path, duration = 0.3): ''' 生成gif文件,原始图片仅支持png格式 gif_name :...

2018-03-03 19:46:35 8291

原创 python 实现将 pandas 数据和 matplotlib 绘图嵌入 html 文件

python 实现将 pandas 数据和 matplotlib 绘图嵌入 html 文件 实现用 python 将 pandas 的 DataFrame 数据以及 matplotlib 绘图的图像保存为 HTML 文件实现原理python 的 lxml 库的 etree 模块可以实现解析 HTML 代码并写入 html 文件。如下所示:from lxml imp

2018-02-01 17:24:18 16397 8

原创 python 的 IDLE 无法连接以及 jupyter notebook 无法打开浏览器

python 的 IDLE 无法连接以及 jupyter notebook 无法打开浏览器问题描述win10 系统由于防火墙机制,安装 python 以及 anaconda 会出现如下错误: 1. 安装 python 后,打开 IDLE 出现错误,无法连接python解释器。错误信息为 IDLE’s subprocess didn’t make connection.Either ID

2018-01-13 11:34:22 2907

原创 Python 读取指定目录及其子目录下所有文件名

Python 读取指定目录及其子目录下所有文件名目标 磁盘中的文件随着积累越来越多,当要寻找某个文件时,使用 windows 的搜索速度太慢且占内存。因此想要寻找一个可以获取指定目录下的所有文件的文件名,作为一种图书馆索引目录式的文件管理方式。在此使用 python 的os.walk() 函数实现遍历指定目录及所有子目录下的所有文件。使用 python 3.6 版本实现。

2018-01-06 20:39:20 20806 1

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除