自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 Python 图像处理的库 Pillow,opencv 和 scikit-image 的基本用法

Python 图像处理的库 Pillow,opencv 和 scikit-image 的基本用法Pillow 包的使用Pillow 基本用法生成文字图片Image 图像与 base64 字符串互相转换Image 图像与 Numpy 数组相互转换scikit-image 的使用Open-CV参考: ...

2020-05-02 21:30:54 556 0

原创 Numpy 拼接数组的各种方式

Numpy 拼接数组的各种方式拼接方法介绍numpy.append(arr, values, axis=None)numpy.concatenate((a1, a2, ...), axis=0, out=None)stack(), hstack(), vstack()np.r_ 和 np.c_总结...

2020-05-01 18:27:59 621 0

原创 Django + uWSGI + nginx 部署 Python Web 应用

Django + uWSGI + nginx 部署 Python Web 应用 在实现一些算法模式后,考虑的就是模型的部署了。对于一些相对独立的模型应用,如 OCR 识别引擎等,部署为独立的 Web 应用,以提供 API 的供其他系统调用的方式将是一个不错的解决方案。此方案的优点有以下几个方面: ...

2019-09-20 22:15:55 160 0

原创 spark-submit 命令使用详解

spark-submit 命令使用详解 spark-submit 用户打包 Spark 应用程序并部署到 Spark 支持的集群管理气上,命令语法如下: spark-submit [options] <python file> [app arguments] app argument...

2019-09-06 20:38:08 1955 1

原创 批量修改图片像素大小:Python GUI 交互界面实现

批量修改图片像素大小:Python GUI 交互界面实现 1、Python 修改图片像素大小 Python 的 PIL 包可以实现图片的读写、像素大小的设置。 安装 pillow 第三方模块: pip install pillow 设置图片大小的示例代码: from PIL import Imag...

2019-07-01 21:07:39 496 0

原创 PySaprk 将 DataFrame 数据保存为 Hive 分区表

PySaprk 将 DataFrame 数据保存为 Hive 分区表 创建 SparkSession from pyspark.sql import SparkSession spark = SparkSession.builder.enableHiveSupport().appName(�...

2019-06-28 18:10:48 1863 0

原创 数据预处理:PySpark 的实现线性插值填充缺失值

数据预处理:PySpark 的实现线性插值填充缺失值 1. Python 实现线性插值填充缺失值 实现函数为: def linear_insert(x1, y1, x2, y2, insert_x): if type(insert_x) == int: insert_x =...

2019-06-06 15:57:08 884 0

原创 pyspark 实现对列累积求和

pyspark 实现对列累积求和 pandas 的 cumsum() 函数可以实现对列的累积求和。使用示例如下: import pandas as pd data = [1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0] data = pd.DataFrame(data, colum...

2019-05-29 18:26:39 2641 0

原创 基于图像识别和文字识别用 Python 提取视频字幕

基于图像识别和文字识别用 Python 提取视频字幕 本文介绍使用 Python 基于图像识别提取视频中的字幕,并使用文字识别将字幕转为纯文本。本文以权力的游戏第一季第一集作为示例。 本文主要使用 OpenCV 读取视频并进行图像处理,需安装以下依赖的库: pip install opencv-p...

2019-04-18 13:01:00 10534 16

原创 Python 爬虫:requests 和 selenium 伪装 headers 和代理应对反爬机制

Python 爬虫:requests 和 selenium 伪装 headers 和代理应对反爬机制 目录 1、requests 伪装 headers 发送请求 2、selenium 模拟使用浏览器伪装 headers 3、requests 使用 ip 代理发送请求 4、selenium we...

2019-03-17 11:13:19 5133 1

原创 python 的 logging 模块日志功能使用详解

python 的 logging 模块日志功能使用详解 目录 一、logging 基本用法 1、添加日志记录 2、日志调用函数的使用 3、日志输出级别 4、设置日志输出格式 二、创建 logger 对象 三、给库或者模块添加日志记录 四、使用配置文件设置日志的配置信息 参考资料 一、lo...

2019-02-27 16:08:40 598 0

原创 keras 入门:卷积神经网络实现 MNIST 手写数字识别

keras 入门:卷积神经网络实现 MNIST 手写数字识别 手写数字识别问题作为机器学习领域中的一个经典问题,本文介绍如何使用 keras 构建卷积神经网络模型实现 MNIST 手写数字识别。文本代码只需更换训练集目录,修改图片输入尺寸和类别数量等少量参数,即可直接应用到其他图像分类的问题中。 ...

2019-02-15 11:21:42 1523 0

原创 python 读取 MNIST 数据集,并解析为图片文件

python 读取 MNIST 数据集,并解析为图片文件 MNIST 是 Yann LeCun 收集创建的手写数字识别数据集,训练集有 60,000 张图片,测试集有 10,000 张图片。数据集链接为:http://yann.lecun.com/exdb/mnist/。数据集下载解压后有4个二进...

2019-02-15 11:18:58 3085 0

原创 预测回归二:局部加权回归和惩罚线性回归

预测回归二:局部加权回归和惩罚线性回归 预测回归二:局部加权回归和惩罚线性回归 一、局部加权回归 原理 python 代码实现 二、惩罚线性回归 2.1 岭回归 2.2 lasso 缩减法 2.3 ElasticNet 形式化 2.4 求解惩罚线性回归问题 一般的线性回归(关...

2019-02-12 15:52:21 776 0

原创 机器学习之预测回归一:简单线性回归

线性规划从原理到实战

2019-02-12 12:47:11 307 0

原创 python 实现中文文本分类

python 实现中文文本分类 本文基于 Python 采用 scikit-learn 模块实现中文文本分类。 文本分类 一、预处理 1. 获取语料库 语料库数据选用搜狗语料库的搜狐新闻数据精简版:http://www.sogou.com/labs/resource/cs.php。 数据集介绍:...

2019-02-01 16:20:14 11271 12

原创 python 爬虫获取网页 html 内容以及下载附件的方法

python 爬虫获取网页 html 内容以及下载附件的方法 python 爬虫获取网页 html 内容的两种方法: 获取静态网页和使用浏览器获取动态内容。 from urllib.request import urlopen from urllib import request from bs4...

2018-12-23 12:00:00 5641 0

原创 python 实现将office文件 (word, ppt, excel等) 转为pdf

python 实现将office文件 (word, ppt, excel等) 转为pdf 在 windows 系统(需安装office套件)中,利用 python 的 win32com 包可以实现对Office文件的操作,可以批量转换为pdf文件。支持 doc, docx, ppt, pptx, ...

2018-12-22 15:22:55 6710 5

原创 python代码执行安装第三名模块或升级已安装模块

python代码执行安装第三名模块或升级已安装模块 使用 subprocess 模块执行命令行命令, 当导入未安装的模块时,自动安装。 import subprocess try: import modulename except ModuleNotFoundError : su...

2018-12-09 16:54:41 114 0

原创 Python 通过函数名的字符串调用对应的函数

Python 通过函数名的字符串调用对应的函数 使用 getattr() 函数可以实现: class func_factory: def func_name1(self, x): print('func_name1', x) def func_n...

2018-12-09 16:43:51 823 0

原创 java 中文文本分词

java 中文文本分词 本文使用 classifier4J 以及 IKAnalyzer2012_u6 实现中文分词。可以增加自定义词库,词库保存为 “exdict.dic” 文件,一个词一行。 // MyTokenizer.java 文件 import java.io.BufferedR...

2018-08-08 21:37:32 1581 1

原创 Python 图片与pdf相互转换

使用 Python 进行图片和pdf之间的相互转换 使用到第三方库 PyMuPDF 在 python 环境下对 PDF 文件的操作。 PDF 转为图片 需新建文件夹 pdf2png import fitz import glob def rightinput(desc): ...

2018-06-28 22:36:14 6775 0

原创 Python 利用百度文字识别 API 识别并提取图片中文字

Python 利用百度文字识别 API 识别并提取图片中文字 利用百度 AI 开发平台的 OCR 文字识别 API 识别并提取图片中的文字。首先需注册获取 API 调用的 ID 和 key,步骤如下: 打开百度AI开放平台,进入控制台中的文字识别应用(需要有百度账号)。 创建一个应用,并进入...

2018-06-23 20:37:00 19970 32

原创 Java 使用阻塞队列 BlockingQueue 多线程搜索目录及子目录下包含关键字所有文件

Java 使用阻塞队列 BlockingQueue 多线程在一个目录及它的所以子目录下搜索所有文件,打印出包含关键字的行 阻塞队列( blocking queue ) 生产者线程向队列插人元素, 消费者线程则取出它们。使用队列,可以安全地从一个线程向另一个线程传递数据。 工作者线程可以周期...

2018-06-23 19:55:48 390 0

原创 ipywidgets 包实现 jupyter notebook 的控件交互

ipywidgets 包可以实现 jupyter notebook 笔记本的交互式控件操作。 from ipywidgets import interact import ipywidgets as widgets 首先定义一个用于操作的函数: def f1(x): retu...

2018-03-11 18:45:15 6589 1

原创 Python 生成 GIF 文件

Python 生成 GIF 文件 使用 Python 合成 gif 动态图,程序如下: 原图片需具有相同大小 import imageio import os import os.path def create_gif(gif_name, path, duration = 0....

2018-03-03 19:46:35 6756 0

原创 python 实现将 pandas 数据和 matplotlib 绘图嵌入 html 文件

python 实现将 pandas 数据和 matplotlib 绘图嵌入 html 文件 实现用 python 将 pandas 的 DataFrame 数据以及 matplotlib 绘图的图像保存为 HTML 文件 实现原理 python 的 lxml 库的 etree ...

2018-02-01 17:24:18 12166 3

原创 python 的 IDLE 无法连接以及 jupyter notebook 无法打开浏览器

python 的 IDLE 无法连接以及 jupyter notebook 无法打开浏览器 问题描述 win10 系统由于防火墙机制,安装 python 以及 anaconda 会出现如下错误: 1. 安装 python 后,打开 IDLE 出现错误,无法连接python解释器。错误信息为 ...

2018-01-13 11:34:22 2231 0

原创 Python 读取指定目录及其子目录下所有文件名

Python 读取指定目录及其子目录下所有文件名 目标 磁盘中的文件随着积累越来越多,当要寻找某个文件时,使用 windows 的搜索速度太慢且占内存。因此想要寻找一个可以获取指定目录下的所有文件的文件名,作为一种图书馆索引目录式的文件管理方式。 在此使用 python 的os....

2018-01-06 20:39:20 17322 0

提示
确定要删除当前文章?
取消 删除