deepin 网速(WIFI)太慢的一种解决方法 Deepin系统是一个非常好用的Linux发行版本,图形化桌面非常美观,还可以通过deepin-wine安装很多windows平台才能安装的软件,非常方便。但是也经常会碰到一些小bug,比如网速慢。这里介绍一种可能的解决方法:修改配置文件的参数。(1)打开终端(CTRL + ALT + T)(2)修改/etc/modprobe.d/iwlwifi.conf 配置文件在终端中输入:s...
Pandas 最简单的方法实现真正的并行 本文介绍一种简单的方法实现pandas的并行,从而实现数倍的速度提升,pandas pandarallel0. 闲扯pandas 应该是应该python 中应用最广泛的数据处理库了,但是广为诟病的是速度处理比较慢,无法充分利用计算机的资源。在处理海量的数据或者文本时,我们希望能利用所有的CPU线程来加速。但是Python的多线程和多进程写起来比较麻烦,其中的多线程因为GIL(全局解释锁)的原因还是伪多线程。在网上查找资料时,也有很多1行代码实现Python并行的文章,但是试验下来效果都.
主题模型Gensim入门系列之四:文本相似度查询 本文主要介绍如何从一个语料库中,查询一个指定文本的相似文本。1、创建语料创建语料和之前的三节相似,代码如下:from collections import defaultdictfrom gensim import corpora documents = [ "Human machine interface for lab abc computer applications", "A survey of user opinion of computer system re
主题模型Gensim入门系列之三:主题和变换 本节主要介绍Gensim中从一个向量空间转换到另外一个向量空间的变换的概念,通过一个简单的语料加以说明,变换主要达到以下目的:(1)揭示语料的隐含结构,发现单词之间的联系,并用它们来更具语义地描述文档(2)使文档的描述更加紧凑,这种描述更加突出文档特征,同时更加高效。1、创建语料创建语料的方法和前两个部分的处理一样,即将原始文档进行分词,去除停止词、低频词和标点符号之后,得到每一个文档的单词列表。from collections import defaultdictfrom gens
主题模型Gensim入门系列之二:语料和向量空间 本文主要介绍将文档(Document)转换为向量空间,同时介绍语料流(corpus streaming) 和通过多种格式存储到磁盘。1、从字符串到向量首先,假设作为字符串,有如下语料:documents = [ "Human machine interface for lab abc computer applications", "A survey of user opinion of computer system response time", "The EPS
主题模型Gensim入门系列之一:核心概念 Gensim 有4个核心概念,分别为Document、Corpus、Vector、Model,因为是核心概念,这里沿用英文的解释,并尝试翻译:1、Document:some text. 文档:一些文本。2、Corpus:a collections of documents 语料:文档的集合3、Vector:a mathematically convenient representation of a document. 向量:文档的数值表达4、Model:an algo...
主题模型Gensim入门系列 Gensim是一个开源的python工具包,主要实现自然语言的词向量模型和主题模型,可以实现词向量转换、文本相似性计算和文本分类等应用,其官网的简介为:topic modelling for humans。在该工具包中,实现了word2vec,fastext词向量模型,LSA和LDA主题模型等。Gensim的官网为:https://radimrehurek.com/gensim/index.htmlGensim的github地址为:https://github.com/RaRe-Te..
OCR数据集生成利器—TextRecognitionDataGenerator 本文主要介绍通过开源项目TextRecognitionDataGenerator生成定制OCR数据集,用于训练模型和测试模型效果,达到特定场景下识别的优化。1、现有数据集的问题在自然场景(如照片,视频)的文字OCR识别中,由于文字的字体和颜色不同,长短和布局不定,同时文字所处背景的复杂性,模型训练后在特定场景下的文字识别效果依赖于数据集是否覆盖类似风格的文字(训练-测试同分布假设)。当前虽然有不少开放的大规模OCR数据集,比如牛津大学的Synthetic Word Dataset和Sy...
一篇入门深度学习OCR:数据集和算法合集 当前OCR领域基本上已经是深度学习的天下了,近5年,在算法和数据集的双重加持下,OCR已经成为一个解决的问题,要做一个适合于自己的OCR系统,关键在于选择适合于自己场景的数据集和算法。本文主要记录OCR领域常用的数据集和算法,以及相关的开源项目和博客。1、OCR数据集和数据集生成工具在任何领域,深度学习成为主流意味着数据集是其中的关键,即使是相同的OCR模型,大规模数据集的训练能带来识别效果上质的提升。深度学习OCR处理主要分成两步走:(1)图片中的文本检测,即通过文本框框出图片中的文本
正则匹配所有网址 在短信等其它文本中,经常会出现一些网址,可以通过正则提取。1、pythonimport re# 所有网址的正则url_compile=re.compile("[http://|ftp://|https://|www]?[^\u4e00-\u9fa5\s]*?\.[com|net|cn|me|tw|fr][^\u4e00-\u9fa5\s]*")result1=url_compile.findall("您已节省0.01元,通过农行卡****支付446.39元。本次支付送您免单机会!速戳→
Tensorflow针对CPU的编译优化加速-解决Not compiled to use: SSE4.1 SSE4.2 AVX AVX2 FMA 本文介绍Tensorlfow 针对 CPUSSE4.1 SSE4.2 AVX AVX2 FMA 的编译优化,以提升Tensorflow在CPU上的计算速度,实测可以提升两倍以上的速度。1、问题在用 pip 安装tensorflow的CPU版本后,在运行的时候通常会出现如下提示:Your CPU supports instructions that this TensorFlow bina...
Linux 和 windows 下解决端口占用问题( Port was already in use) 在测试Web服务的时候,经常会出现端口被占用的问题,有的时候你明明关闭了占用某某端口的应用,但还是提示被占用,重启电脑可以解决,但是过于麻烦。下面分别介绍在 linux 和 windows 平台下解决这个问题的方法。1、Linux 平台(1)查看端口占用情况在终端输入如下命令:netstat -tln # 查看所有占用端口的使用情况netstat -tln | grep 808...
Springboot 入门实例之一:创建一个RESTful Web 服务 本系列文章主要记录学习 Springboot 官网快速入门实例的过程,官网的实例总共有68个,每个实例官方说大概在15~30min钟。。我以为对于web框架的学习,先做一遍实例会比较有感觉,然后再却研究相关的图书来提高理论认知。本文介绍快速入门实例中的第一个实例,创建一个RESTful Web 服务。当然对英文比较熟悉的话可以参照原文。1、创建的服务创建一个服务,接受HTTP...
最简单的方法—tensorflow 2.0 keras 保存 .pb 格式的模型 我们知道在tensorflow 2.0中利用 tensorflow.keras可以很方便地保存和加载 .h5 模型,但是 .h5格式的模型只适合在本地使用,不适合部署。tensorflow serving 提供了很强大的部署功能,但是仅支持 .pb 格式,关于 .pb 格式的好处请参考:TensorFlow 保存模型为 PB 文件。本文说明如何用最简单的方法利用 tensorflow.keras ...
python logging 日志模块入门笔记 python 日志库logging1、日志级别NOTSETDEBUGINFO ----------设置级别,则以下的信息均会输出WARNINGERRORCRITICAL2、logging 流程Logger:暴露函数给应用程序,基于日志记录器和过滤器决定哪些日志有效LogRecord: 日志记录器,将日志传到相应的处理器处理Handler:处理器,将记录器产生的日志记录发送至合...
如何将 arXiv 网站中的文献导入成 endnote 格式或者其它你想要的格式 arXiv 是发布论文预印本的平台,现在很多自然科学的论文,特别是计算机科学的论文,都是先发表到arXiv 网站,当我们想引用的时候,发现用Endnote 等软件检索不到。那么如何将arXiv 导出为endnote 格式 或者其他你想要的格式呢?1、首先找到你想要的文章,点击右下角的 NASA ADS,如下图所示。2、点击 Export Citation3、在...
深度学习从零开始(2)——由感知机到神经网络 1、 感知机在大部分的神经网络或者深度学习的教材中,基本上都会在开头介绍感知机。为什么呢?因为感知机是神经网络乃至深度学习算法的源头,后两者虽然更为复杂,但是本质上不过是感知机稍作改进,堆叠而成。因此学习感知机也对学习后续的神经网络和深度学习,以及认识到历史发展过程中一系列改进的重要性有所帮助。其中最主要的就是激活函数还有反向传播,这是后话,我们会在后面的章节中详细讲解。首先我们来看看感知机是...
Numpy 中 linspace 和 arange 的用法和区别 在绘图或者计算函数值的时候,我们常常需要生成一些序列,比如生成 0~1000 之间的整数。这时,我们经常用到 Numpy 中的 linspace 和 arange 函数。然而稍不注意,两者就容易用错,特别是linspace,现在对两者的用法和区别说明如下,并指出两者容易用错的地方。1、arange 函数的用法为了便于分析,我们假设要生成 0~10 间的整数序列 [0, 1, 2, 3, 4...