liuzard-CSDN博客

原创 Tensorflow针对CPU的编译优化加速-解决Not compiled to use: SSE4.1 SSE4.2 AVX AVX2 FMA

本文介绍Tensorlfow 针对 CPUSSE4.1 SSE4.2 AVX AVX2 FMA 的编译优化，以提升Tensorflow在CPU上的计算速度，实测可以提升两倍以上的速度。1、问题在用 pip 安装tensorflow的CPU版本后，在运行的时候通常会出现如下提示：Your CPU supports instructions that this TensorFlow bina...

2020-04-17 11:34:04 4928

原创 HuggingFace transformers 中文文档

HuggingFace transformers中文文档

2023-10-11 14:53:47 1546

原创 Pandas 最简单的方法实现真正的并行

本文介绍一种简单的方法实现pandas的并行，从而实现数倍的速度提升，pandas pandarallel0. 闲扯pandas 应该是应该python 中应用最广泛的数据处理库了，但是广为诟病的是速度处理比较慢，无法充分利用计算机的资源。在处理海量的数据或者文本时，我们希望能利用所有的CPU线程来加速。但是Python的多线程和多进程写起来比较麻烦，其中的多线程因为GIL（全局解释锁）的原因还是伪多线程。在网上查找资料时，也有很多1行代码实现Python并行的文章，但是试验下来效果都.

2020-11-03 13:55:51 10397 6

原创主题模型Gensim入门系列之四：文本相似度查询

本文主要介绍如何从一个语料库中，查询一个指定文本的相似文本。1、创建语料创建语料和之前的三节相似，代码如下：from collections import defaultdictfrom gensim import corpora documents = [ "Human machine interface for lab abc computer applications", "A survey of user opinion of computer system re

2020-10-31 17:58:27 2741

原创主题模型Gensim入门系列之三：主题和变换

本节主要介绍Gensim中从一个向量空间转换到另外一个向量空间的变换的概念，通过一个简单的语料加以说明，变换主要达到以下目的：（1）揭示语料的隐含结构，发现单词之间的联系，并用它们来更具语义地描述文档（2）使文档的描述更加紧凑，这种描述更加突出文档特征，同时更加高效。1、创建语料创建语料的方法和前两个部分的处理一样，即将原始文档进行分词，去除停止词、低频词和标点符号之后，得到每一个文档的单词列表。from collections import defaultdictfrom gens

2020-10-31 17:52:43 1162

原创主题模型Gensim入门系列之二：语料和向量空间

本文主要介绍将文档（Document）转换为向量空间，同时介绍语料流（corpus streaming）和通过多种格式存储到磁盘。1、从字符串到向量首先，假设作为字符串，有如下语料：documents = [ "Human machine interface for lab abc computer applications", "A survey of user opinion of computer system response time", "The EPS

2020-10-31 17:45:48 1011

原创主题模型Gensim入门系列之一：核心概念

Gensim 有4个核心概念，分别为Document、Corpus、Vector、Model，因为是核心概念，这里沿用英文的解释，并尝试翻译：1、Document：some text. 文档：一些文本。2、Corpus：a collections of documents 语料：文档的集合3、Vector：a mathematically convenient representation of a document. 向量：文档的数值表达4、Model：an algo...

2020-10-31 17:34:50 1342 1

原创主题模型Gensim入门系列

Gensim是一个开源的python工具包，主要实现自然语言的词向量模型和主题模型，可以实现词向量转换、文本相似性计算和文本分类等应用，其官网的简介为：topic modelling for humans。在该工具包中，实现了word2vec，fastext词向量模型，LSA和LDA主题模型等。Gensim的官网为：https://radimrehurek.com/gensim/index.htmlGensim的github地址为：https://github.com/RaRe-Te..

2020-10-31 17:27:41 579

原创 OCR数据集生成利器—TextRecognitionDataGenerator

本文主要介绍通过开源项目TextRecognitionDataGenerator生成定制OCR数据集，用于训练模型和测试模型效果，达到特定场景下识别的优化。1、现有数据集的问题在自然场景（如照片，视频）的文字OCR识别中，由于文字的字体和颜色不同，长短和布局不定，同时文字所处背景的复杂性，模型训练后在特定场景下的文字识别效果依赖于数据集是否覆盖类似风格的文字（训练-测试同分布假设）。当前虽然有不少开放的大规模OCR数据集，比如牛津大学的Synthetic Word Dataset和Sy...

2020-10-31 17:16:04 13500 13

原创一篇入门深度学习OCR：数据集和算法合集

当前OCR领域基本上已经是深度学习的天下了，近5年，在算法和数据集的双重加持下，OCR已经成为一个解决的问题，要做一个适合于自己的OCR系统，关键在于选择适合于自己场景的数据集和算法。本文主要记录OCR领域常用的数据集和算法，以及相关的开源项目和博客。1、OCR数据集和数据集生成工具在任何领域，深度学习成为主流意味着数据集是其中的关键，即使是相同的OCR模型，大规模数据集的训练能带来识别效果上质的提升。深度学习OCR处理主要分成两步走：（1）图片中的文本检测，即通过文本框框出图片中的文本

2020-10-31 16:34:53 13409 5

原创正则匹配所有网址

在短信等其它文本中，经常会出现一些网址，可以通过正则提取。1、pythonimport re# 所有网址的正则url_compile=re.compile("[http://|ftp://|https://|www]?[^\u4e00-\u9fa5\s]*?\.[com|net|cn|me|tw|fr][^\u4e00-\u9fa5\s]*")result1=url_compile.findall("您已节省0.01元,通过农行卡****支付446.39元。本次支付送您免单机会！速戳→

2020-06-16 17:32:06 5429

原创 Linux 和 windows 下解决端口占用问题（ Port was already in use）

在测试Web服务的时候，经常会出现端口被占用的问题，有的时候你明明关闭了占用某某端口的应用，但还是提示被占用，重启电脑可以解决，但是过于麻烦。下面分别介绍在 linux 和 windows 平台下解决这个问题的方法。1、Linux 平台（1）查看端口占用情况在终端输入如下命令：netstat -tln # 查看所有占用端口的使用情况netstat -tln | grep 808...

2020-02-25 12:38:56 7110

原创 deepin 网速（WIFI）太慢的一种解决方法

Deepin系统是一个非常好用的Linux发行版本，图形化桌面非常美观，还可以通过deepin-wine安装很多windows平台才能安装的软件，非常方便。但是也经常会碰到一些小bug，比如网速慢。这里介绍一种可能的解决方法：修改配置文件的参数。（1）打开终端（CTRL + ALT + T）（2）修改/etc/modprobe.d/iwlwifi.conf 配置文件在终端中输入：s...

2020-02-21 13:16:52 13315

原创 Springboot 入门实例之一：创建一个RESTful Web 服务

本系列文章主要记录学习 Springboot 官网快速入门实例的过程，官网的实例总共有68个，每个实例官方说大概在15~30min钟。。我以为对于web框架的学习，先做一遍实例会比较有感觉，然后再却研究相关的图书来提高理论认知。本文介绍快速入门实例中的第一个实例，创建一个RESTful Web 服务。当然对英文比较熟悉的话可以参照原文。1、创建的服务创建一个服务，接受HTTP...

2020-02-19 22:39:57 2085

原创最简单的方法—tensorflow 2.0 keras 保存 .pb 格式的模型

我们知道在tensorflow 2.0中利用 tensorflow.keras可以很方便地保存和加载 .h5 模型，但是 .h5格式的模型只适合在本地使用，不适合部署。tensorflow serving 提供了很强大的部署功能，但是仅支持 .pb 格式，关于 .pb 格式的好处请参考：TensorFlow 保存模型为 PB 文件。本文说明如何用最简单的方法利用 tensorflow.keras ...

2019-12-17 11:01:03 20342 45

原创 python logging 日志模块入门笔记

python 日志库logging1、日志级别NOTSETDEBUGINFO ----------设置级别，则以下的信息均会输出WARNINGERRORCRITICAL2、logging 流程Logger：暴露函数给应用程序，基于日志记录器和过滤器决定哪些日志有效LogRecord: 日志记录器，将日志传到相应的处理器处理Handler：处理器，将记录器产生的日志记录发送至合...

2019-12-07 20:18:31 425

原创如何将 arXiv 网站中的文献导入成 endnote 格式或者其它你想要的格式

arXiv 是发布论文预印本的平台，现在很多自然科学的论文，特别是计算机科学的论文，都是先发表到arXiv 网站，当我们想引用的时候，发现用Endnote 等软件检索不到。那么如何将arXiv 导出为endnote 格式或者其他你想要的格式呢？1、首先找到你想要的文章，点击右下角的 NASA ADS，如下图所示。2、点击 Export Citation3、在...

2019-05-06 16:10:54 30360 4

原创深度学习从零开始（2）——由感知机到神经网络

1、感知机在大部分的神经网络或者深度学习的教材中，基本上都会在开头介绍感知机。为什么呢？因为感知机是神经网络乃至深度学习算法的源头，后两者虽然更为复杂，但是本质上不过是感知机稍作改进，堆叠而成。因此学习感知机也对学习后续的神经网络和深度学习，以及认识到历史发展过程中一系列改进的重要性有所帮助。其中最主要的就是激活函数还有反向传播，这是后话，我们会在后面的章节中详细讲解。首先我们来看看感知机是...

2019-03-05 16:53:35 1651 3

原创 Numpy 中 linspace 和 arange 的用法和区别

在绘图或者计算函数值的时候，我们常常需要生成一些序列，比如生成 0~1000 之间的整数。这时，我们经常用到 Numpy 中的 linspace 和 arange 函数。然而稍不注意，两者就容易用错，特别是linspace，现在对两者的用法和区别说明如下，并指出两者容易用错的地方。1、arange 函数的用法为了便于分析，我们假设要生成 0~10 间的整数序列 [0, 1, 2, 3, 4...

2019-02-20 20:18:29 12434 1

转载如何在信号中添加指定信噪比的高斯白噪声，为何深度学习去噪研究采用高斯白噪声？

在信号或者图像的降噪研究中，很多学者采用高斯白噪声添加到干净的样本中，来模拟含有噪声的样本，并以此来验证提出模型的降噪效果（比如降噪自编码器——Denoising Autoencoder）。有一次投稿，一个审稿人问为什么采用高斯白噪声? 如何保证添加噪声后，样本有指定的信噪比（Signal to Noise Ratio）?对于第一个问题，我自己一时回答不上来，于是就去网上查找资料。我相信这两个...

2019-02-18 16:31:28 31486 19

原创深度学习从零开始（1）— 如何学习深度学习？

首先说我个人的结论：（1）假如是为了找工作，或者短时间内解决问题，我建议最好的入门书是：《Python 深度学习》和《Scikit-Learn与TensorFlow机器学习实用指南（影印版）》和《TensorFlow：实战Google深度学习框架（第2版）》，三本书都是该领域的经典，而且难得的是非常易读，看完就可以利用经典的机器学习和深度学习算法解决常见的问题。（2）假如想长期学习，深入理...

2019-02-17 15:35:04 2684

原创大话python装饰器

由于装饰器的结构和使用形式，相信很多python的初学者在学习的过程中有很多困惑，本文尽量站在初学者的角度，用大白话和简单的代码对装饰器进行讲解，绕开闭包和对象引用的概念，希望尽可能减少初学者在学习装饰器时的困惑。1 什么是装饰器其实对于初学者来说，最大的疑惑可能是装饰器是干什么用的？为什么我在编程的过程中基本上用不到，我在什么场合下必须用它呢？其实装饰器很简单，从名字上就可以看出它的...

2018-09-21 13:38:23 324

原创 python 中 is, is not ,==, != 的区别

首先说结论：1、is, is not 对比的是两个变量的内存地址2、==,!= 对比的是两个变量的值由此可以进一步推出：a、假如比较的两个变量，指向的都是不可变的类型（str, tuple等），那么is，is not 和 ==，！= 是完全等价的。b、假如对比的两个变量，指向的是不可变得类型（list,dict等），则两者是有区别的。现分别对这两种情况加以说明：1...

2018-09-18 21:15:21 54278 3

u012995500的博客