自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Together_CZ的博客

种一棵树,最好的时间是十年前,其次是现在

原创 零基础起步Keras+LSTM+CRF的实践命名实体识别NER

文本分词、词性标注和命名实体识别都是自然语言处理领域里面很基础的任务,他们的精度决定了下游任务的精度,其实在这之前我并没有真正意义上接触过命名实体识别这项工作,虽然说读研期间断断续续也参与了这样的项目,但是毕业之后始终觉得一知半解的感觉,最近想重新捡起来,以实践为学习的主要手段来比较系统地对命名实体识别这类任务进行理解、学习和实践应用。 当今的各个应用里面几乎不会说哪个任务会没有深度学习的影子,很多子任务的发展历程都是惊人的相似,最初大部分的研究和应用都是集中在机器学习领域里面,...

2020-07-18 12:06:01 437

原创 Python开发过程中错误解决记录【持续更新记录,欢迎交流】

2020.07.10错误:Object arrays cannot be loaded when allow_pickle=False出现在numpy加载本地.npy文件的时候解决:np.load('a.npy', allow_pickle=True)

2020-07-10 15:08:25 311

原创 基于pycrfsuite和sklearn_crfsuite的命名实体识别NER实战【以CoNLL2002数据集为基准】
原力计划

文本分词、词性标注和命名实体识别都是自然语言处理领域里面很基础的任务,他们的精度决定了下游任务的精度,其实在这之前我并没有真正意义上接触过命名实体识别这项工作,虽然说读研期间断断续续也参与了这样的项目,但是毕业之后始终觉得一知半解的感觉,最近想重新捡起来,以实践为学习的主要手段来比较系统地对命名实体识别这类任务进行理解、学习和实践应用。 对于我个人来说学习一个新的东西,比较喜欢实践为主去学习,因为最开始接触机器学习的时候都是从空洞的理论开始的,后来学了好久发现,这些理论知识的学习固然...

2020-07-09 10:41:47 307

原创 零基础实战Keras模型转化为RKNN格式模型成功运行在RK3399Pro板子上

深度学习实验大多是在服务器端进行的,在实际的应用中,想要把训练好的模型投入实际的应用中去的时候往往需要转化为适应于边缘端或者是移动端计算的格式,一是缩减模型大小降低原有的参数体量,二是借助于硬件环境的加速能力,提升模型的推理速度,总之就是为了能够在板子上跑的更快点。 在实际的开发实践中,我们选择使用的是RK3399Pro这个型号的板子,提供了NPU级别的硬件加速计算能力,官方的文档地址在这里,首页截图如下所示: 这里是官方给出来的云计算和边缘计算的简单对比说明:云计...

2020-07-02 15:45:11 375

原创 两路共享LSTM时序数据预测实战+界面可视化应用

在我之前的文章中,已经对LSTM的实际应用有过很多的实践和说明了,今天介绍的LSTM模型跟之前的不同,在以往的时序数据建模中,我们的输入端是只有一个的,也就是说入口处只有“单条通路”,本文提及的两路LSTM,是在输入端就要两个输入,所以称之为两路共享的LSTM模型,话不多说这里先来看下简单的模型结构,如下所示: 从上面的模型结构图中可以很清晰地看到:入口处有两个维度的数据输入,之后一同进入到LSTM模型中,这里我们为了简单起见,也是为了降低计算量,毕竟深度学习模型是比较耗费资源的...

2020-06-17 19:35:58 710

原创 基于深度学习模型+Attention机制的分类模型构建实践分析【以鸢尾花数据集为例】

在我之前的文章中,没有或者是很少有涉及到Attention机制的使用,因为之前做的很多工作中也不需要用到这个技术,周末正好有点时间就想学一下这个Attention机制,看看到底怎么样去结合使用,怎么样能够提升我们原有模型的性能。 当我们人在看一样东西的时候,我们当前时刻关注的一定是我们当前正在看的这样东西的某一地方,换句话说,当我们目光移到别处时,注意力随着目光的移动也在转移,这意味着,当人们注意到某个目标或某个场景时,该目标内部以及该场景内每一处空间位置上的注意力分布是不一样的。...

2020-06-14 20:26:25 662

原创 Pytorch基于深度学习模型Seq2Seq的聊天机器人构建与应用部署实战

聊天机器人是非常常见而广泛的应用,很多企业都有很多机器人客服的需求,比如:移动、电信、联通、淘宝、京东等等,聊天机器人的本质就是文本数据处理,我的主要研究方向并不是文本处理相关的,但是断断续续学习、工作中接触到了一定的文本数据处理的任务,对文本数据处理也算得上是有一定的了解程度吧。 聊天机器人的应用可以简单理解为“输入一句话,机器返回一句响应的话”,返回的话跟你的话或者是问题相关度比较高,让你察觉不到是在跟一台机器聊天,这里模型需要能够比较确切地了解或者是解读清楚你输入的文本数据,然...

2020-06-08 19:38:24 703 5

原创 信号数据EMD分解+IMF时序数据LSTM预测建模实践
原力计划

周末的时间闲下来了,想到之前计划的事情还未执行的还有很多,正好拿过来做一下,今天主要是想学习和实践一下信号领域的数据的处理和建模内容,从网上找到了一个振动信号相关的数据集,首先,想先基于EMD算法完成信号的 分解处理,之后基于LSTM模型来实现时序数据的建模预测分析。 对于现在的我来说,属于数据信号处理领域里面的小白,所以写这篇文章很可能会有错误或者是不合理的地方,如果问题欢迎指出,欢迎交流学习,同时呢?这里也是自己学习过程的记录,包括自己在了解一些信号处理算法时的资料等,也都一...

2020-05-30 17:24:00 1211 6

原创 基于卷积神经网络模型的MSTAR高分辨率图像数据集识别实践
原力计划

卷积神经网络CNN如今早已是深度学习的核心,广泛应用于各类任务中,在我以往的图像数据处理中大多接触的是比较具体的图像数据,比如:手写数字、手写字母、人脸数据、动物数据、交通信号数据等等,对于遥感或者是卫星相关的数据涉及得很少很少,今天找到了一个比较有意思的数据集【MSTAR高分辨率图像数据集】,想基于这个数据集来构建一下自己的卷积神经网络模型做一点实践。 首先,查阅了一些相关的研究文献资料,简单介绍一下【MSTAR高分辨率图像数据集】 当前用于研究SAR ATR 的图像...

2020-05-24 16:58:29 1678 4

原创 史上最迷你人脸数据集olivettifaces基于卷积神经网络模型+迁移学习构建人脸识别模型实战

一般来说,想要搭建自己的深度学习模型来对自己的图像数据做处理往往是需要准备很多数据才行的,不然模型性能是很差的,之前也做过一些人脸识别的应用实践,但大都是需要自己去采集自身的人脸图像数据,这个就比较主观了,因为你可以采集的很多很多人脸图像数据,或者也可以采集的很少,但是很少的话一般效果都不会太好。今天找到一个很有意思的数据集,是我目前接触到的人脸识别领域中最为迷你的数据集,为什么说它“迷你”呢?主要有两个原因:1、种类很多,一共包含有40个人的图像数据2、单个人的图像数据很少只有10张,这...

2020-05-16 18:20:04 755 2

原创 Python 手写数字识别实战分享

手写数字识别作为一个深度学习类入门级别的应用,被广大爱好者所使用,在实际的工作中正好有一个实际的场景需求用到了数字和字母的识别,这里先以手写数字识别为例来对该类型的任务进行讲解。 本文的实践主要是基于卷积神经网络来进行的,卷积神经网络作为如今深度学习的核心自然有它独特的地方。 卷积神经网络的提出是受生物自然视觉认知机制的启发,它的核心在于其采用了卷积层和子采样层组合的特征提取方式。CNN一共采用了三种技术来降低模型的计算复杂度。1)局部感受野 首先是...

2020-05-13 21:25:28 596

原创 基于回归模型的地理空间经纬度预测实践
原力计划

在值预测相关的任务里面回归模型使用的非常得多,从最简单的逻辑回归模型到复杂点的集成回归模型,可以根据具体任务的适用程度来尝试或者决定使用什么样的模型来构建自己的预测模型。 本文主要是基于APP采集到的行走数据,也就是地理空间里面的经纬度数据来对未来位置进行预测分析,我们这里主要是将行走的数据建模成了一个时序数据分析问题,因为物体的移动轨迹不会是随机移动的是随着时间推移,有规...

2020-05-03 21:26:41 663

原创 Python基于迁移学习的手势识别实战【图像多分类任务】【实测准确度超过99.5%】
原力计划

本文是该专栏【迁移学习】系列文章的第三篇文章,主要是实现基于迁移学习的手势识别,个人感觉还是很有意思的一件事情吧,下面是系列文章中的一些基础知识。 迁移学习是一种很强大的深度学习技术,在实际应用中解决图像分类等问题中效果卓越,用一句简单的话来说就是“站在巨人的肩膀山学习”,大多数针对图像分类任务而开源出来的迁移学习模型很多都是基于ImageNet数据集开...

2020-04-22 20:50:58 570

原创 异常值检测算法 IsolationForest、EllipticEnvelope、OneClassSVM实践
原力计划

异常点或者是异常值检测算法是机器学习领域中很重要的一个分支,有效地挖掘出来数据中的异常值对于建模分析等工作来说是很重要的,异常点的检测算法也有很多,主要分为以下几种:异常检测的方法:(1)基于模型的技术:首先建立一个数据模型,异常是那些同模型不能完美拟合的对象;如果模型是簇的集合,则异常是不显著属于任何簇的对象;在使用回归模型时,异常是相对远离预测值的对象。(2)基于邻近...

2020-04-14 20:07:50 422

原创 基于双向长短期记忆神经网络【biLSTM】模型的污染数据预测实战
原力计划

时序数据建模分析已经有很多相关的应用了,在这个领域里面LSTM网络绝对是占据着非常重要的作用,自从LSTM网络提出以来,陆陆续续又出现了很多相关的变种网络,今天从网上找到了一份环境气象领域相关的数据集,可以用于时序数据的建模分析,这里就基于这个数据集来实战双向LSTM网络的时序建模。 这是一张比较形象比较简单的示意图: 双向,顾名思义理解起来也很简单...

2020-04-13 15:18:31 1173 6

原创 Python基于迁移学习的猫狗大战实战【图像二分类任务】【实测准确度超过99.5%】

迁移学习是一种很强大的深度学习技术,在实际应用中解决图像分类等问题中效果卓越,用一句简单的话来说就是“站在巨人的肩膀山学习”,大多数针对图像分类任务而开源出来的迁移学习模型很多都是基于ImageNet数据集开发的,这些预训练的模型往往都是那些谷歌、亚马逊等大厂耗费大量的计算资源训练几周的时间跑出来的模型,在图像的特征提取计算上都有着非常不错的性能,以至于对于我们...

2020-04-03 13:17:47 744

原创 Python基于迁移学习的交通信号识别实战【图像多分类任务】【实测准确度超过96.7%】

迁移学习是一种很强大的深度学习技术,在实际应用中解决图像分类等问题中效果卓越,用一句简单的话来说就是“站在巨人的肩膀山学习”,大多数针对图像分类任务而开源出来的迁移学习模型很多都是基于ImageNet数据集开发的,这些预训练的模型往往都是那些谷歌、亚马逊等大厂耗费大量的计算资源训练几周的时间跑出来的模型,在图像的特征提取计算上都有着非常不错的性能,以至于对于我们【小批量数据+简单神经...

2020-04-01 11:39:13 393

原创 基于堆叠卷积长短期神经网络【CNNLSTM】模型的时序数据预测分析

在实际的工作中,时序类数据建模分析是比较重要的一部分,我们可以采用机器学习来构建一般的回归模型来进行值预测分析,也可以基于神经网络来搭建网络模型来完成时序数据预测分析,在较为简单的任务中,使用机器学习来构建回归模型一般是可以满足需要的,但是当实际面对的问题相对复杂的时候,简单的模型往往就难以胜任了,这里就需要更加高效,更具有表达能力的模型来完成这一工作,LSTM这一类模型就是其中的佼...

2020-03-13 16:20:07 1712

原创 基于差分整合移动平均自回归模型(ARIMA)的时序数据滚动预测建模与网格调参优化实战

ARIMA模型(英语:Autoregressive Integrated Moving Average model),差分整合移动平均自回归模型,又称整合移动平均自回归模型(移动也可称作滑动),是时间序列预测分析方法之一。ARIMA(p,d,q)中,AR是“自回归”,p为自回归项数;MA为“滑动平均”,q为滑动平均项数,d为使之成为平稳序列所做的差分次数(阶数)。 AR...

2020-03-12 15:35:29 1358

原创 基于头条新闻数据的文本分类系统实战

新闻数据本质上来说也属于文本数据,新闻分类本质也就归成了文本分类系统,本文主要是自己业余时间里面的一个小实践,主要是完成从数据采集、存储解析、文本向量化处理、分类模型构建几个步骤,方法和套路都是比较常规的,整体看效果还是不错的。 这里我们初步选定今日头条来作为我们的数据源站点,毕竟头条的新闻类型很多,数据更新很快,尤其是如今火热的自媒体行业的兴起,一大批创作者涌入头条里...

2020-03-12 09:48:14 652

原创 基于深度学习的验证码破解实战【源站图像数据采集+图像预处理+图像切割+模型识别分析】

深度学习应用于图像处理领域应该说有很长一段时间了,相关的研究成果也有很多的积累了,从项目和实践入手是我觉得的最好最快速有效的学习手段,之前有过实际的验证码识别项目,今天正好有时间就想着把之前做的项目以另外的一种形式展现出来,这里没有直接选用我已经上线的项目作为讲解的对象,而是另外找了一个数据网站,对其验证码进行研究后,从零开始搭建自己的识别模型,主要就是:总结-实践-学习-收获。...

2020-03-05 16:56:45 450

原创 实地踩坑,新鲜出炉,阿里云GPU服务器Centos7.7深度学习环境搭建实战

做深度学习相关的项目,最痛苦的莫过于没有GPU资源,好在今年终于等来了第一台深度学习服务器,虽然是采用购买租用的形式,但这并不影响我们实际的使用,大多数人现在购买云端服务器资源首选可能都会是阿里云,毕竟现在的云端做得很好,闲话就不多说了,这里主要是记录一下自己的实际安装使用过程,从昨晚开始安装,一步一个坑,到现在的成功使用,分享一点自己的亲身实践经历,希望能够帮到需要的人。1...

2020-03-03 14:04:35 691

原创 基于LSTM的【气象数据+发电数据】多步时序数据建模预测分析实战

笔者三年多的从业经历里面积累很多关于时序数据建模预测的经验,因为工作性质的原因,接触到的较多的数据类型均为时序数据,在处理这种类型数据的时候会较多使用到回归模型、RNN或者是LSTM模型,所以本文主要基于以往的实践经验来分享一些时序户数建模领域里面的常用做法。 既然说到了LSTM,就要简单的介绍一下RNN(Recurrent Neural Network,RNN)循...

2020-02-03 17:19:21 1348 8

原创 基于豆瓣影评数据的文本分析系统【数据爬取+数据清洗+数据库存储+LDA主题挖掘+词云可视化】

本分析中很多的工作都是基于评论数据来进行的,比如:滴滴出行的评价数据、租房的评价数据、电影的评论数据等等,从这些语料数据中能够挖掘出来客户群体对于某种事物或者事情的看法,较为常见的工作有:舆情分析、热点挖掘和情感分析。 如果想要了解关于文本分类或者是情感分析相关的工作内容,可以阅读我的《数据建模实战》专栏文章,下面是链接信息: ...

2019-12-17 16:26:15 3056 11

原创 基于机器学习和深度学习的推荐系统实战【图书推荐、电影推荐、音乐推荐】

推荐系统在我们日常生活中发挥着非常重要的作用,相信实际从事过推荐相关的工程项目的人或多或少都会看多《推荐系统实战》这本书,我也是读者之一,个人感觉对于推荐系统的入门来说这本书籍还是不错的资料。很多商场、大厂的推荐系统都是很复杂也是很强大的,大多是基于深度学习来设计强有力的计算系统,本文是笔者在公司实践项目中实际做过的推荐系统实践经验分享。技术层面主要从机器学习和深度学习两个方面来分别...

2019-12-17 14:37:33 1105

原创 基于文本数据的情感分析系统

在自然语言处理里面,情感分析大类上归属于文本分类领域,是NLP非常常见也是很重要的一种任务类型,在大多数已开展的分析研究工作中,主要是基于评论数据集,诸如:滴滴打车评论数据集、豆瓣猫眼影评数据集;或者是一些社交媒体数据集,诸如:Twitter数据集、微博数据集、人人网数据集等等。 在开始本文的主要内容之前,我们先看一下有意思的东西,我以当今的小鲜肉【王俊凯】为搜索对象...

2019-12-17 11:05:46 2507

原创 优秀资源推荐

最近整理了好多的数据,各式各样的都有,后面会陆陆续续分享出来,这里会持续更新我的资源分享,当然了,十分欢迎各位朋友推送或者是推荐资源,我一并提交更新,仅作为学习使用,切勿用作其他用途,谢谢合作!计算机类各类书籍资源 常用工具资源...

2019-11-23 20:05:54 300

原创 基于微博数据的人物性格分类系统

声明: 本博客中的VIP系列博客内容严禁转载,未经允许不得以任何形式进行传播,违者追究侵权责任! 基于微博数据的人物性格分类系统 ...

2019-10-08 11:58:44 582

原创 基于深度学习的人脸识别系统实战【从零开始搭建你的人脸识别系统】

人脸识别如今已经是家喻户晓了,几乎每天都要跟他打交道,我们上班的考勤机就是一个人脸识别系统,我们俗称“刷脸机”。进入火车站或者机场的时候也会有人脸识别的需要,这里面都是深度学习的计算力在支撑,今天主要的内容是自己动手完整地去实践整个人脸识别系统,虽说人脸识别已经不是很新鲜的东西了,但是对于一个数据挖掘从业者或者初学者来说想要完整地做出来一个属于自己的人脸识别项目还是需要花费一定的时...

2019-09-20 14:46:06 2486 7

原创 感知器算法超详细讲解实战【原理+手撸代码实现】+spark应用实践

声明:本博客中的VIP系列博客内容严禁转载,未经允许不得以任何形式进行传播,违者追究侵权责任! 感知器算法超详细讲解实战+spark简单应用 ...

2019-08-18 11:56:03 903

原创 基于词典和弱标注信息的电影评论情感分析系统

声明: 本博客中的VIP系列博客内容严禁转载,未经允许不得以任何形式进行传播,违者追究侵权责任! 基于词典和弱标注信息的电影评论情感分析系统 ...

2019-08-10 17:46:39 584

原创 堆叠式神经网络模型stackingKeras【Stacking+Keras】+GUI可视化应用,原理讲解+代码详细实现说明【超强的模型神器,支持自定义】

声明: 本博客中的VIP系列博客内容严禁转载,未经允许不得以任何形式进行传播,违者追究侵权责任! 堆叠式神经网络模型【Stacking+Keras】+GUI可视化应用 ...

2019-08-10 12:22:32 1207 1

原创 基于LSTM的多变量多步序列预测模型实战「超详细实现说明讲解」

声明: 本博客中的VIP系列博客内容严禁转载,未经允许不得以任何形式进行传播,违者追究侵权责任! 本文主要是基于LSTM(Long Short-Term Memory)长短期记忆神经网络来实践多变量序列预测,并完成对未来指定步长时刻数据的预测、分析和可视化,,手把手教你去搭建属于自己的预测分析模型。本文主要分为:LSTM模型简介、数据探索...

2019-08-08 14:35:32 3547 46

转载 keras实现常用深度学习模型LeNet,AlexNet,ZFNet,VGGNet,GoogleNet,Resnet

LeNet#coding=utf-8 from keras.models import Sequential from keras.layers import Dense,Flatten from keras.layers.convolutional import Conv2D,MaxPooling2D from keras.utils.np_utils import to_...

2018-11-26 16:41:44 3228

原创 Linux下Python3.6安装实践与相关问题解决记录

今天在跑一个开源项目的时候突然报出来了一个语法错误,按理说这是不应该,毕竟这个项目在我本机已经成功跑起来,放到服务器上之后就出问题,先检查了一下本地的Python版本是3.6.6的,服务器端的Python版本是3.5.2版本的,所以第一时间想到的可能的问题就是版本带来的问题,3.5可能并不支持某些写法,所以这里就需要安装一下3.6版本了。 具体的安装方式比较简单,这里就不再多解释了,直接看下面的实践:step1:首先需要安装相关的依赖包【我这里并没有执行下面的命令,原因是我...

2020-08-04 13:41:50 56

原创 基于开源文本摘要模块sumy的文本摘要生成实践

自然语言处理领域中有很多的子任务,大类上一共分为四个板块,如下:1. 序列标注:分词/POS Tag/NER/语义标注2. 分类任务:文本分类/情感计算3. 句子关系判断:Entailment/QA/自然语言推理4. 生成式任务:机器翻译/文本摘要 在我接触NLP相关的工作以来,任务1和任务2是比较常见的,后面两种则几乎没有什么接触,今天发现了一个比较有意思的自动文本摘要生成模块sumy,这个属于最后一个任务领域里面的内容,所以就当做入门实践来学习一下,早在之前也看多阮一峰...

2020-07-28 09:31:52 166

原创 序列标注模型结果评估模块seqeval学习使用

诸如词性标注、命名实体识别等NLP任务都是属于序列标注类型的任务的,本质属于分类任务,对于序列标注类型的模型的结果评估也有对应的模块实现,这里主要是简单进行使用说明。 模块名叫 seqeval,GitHub地址在这里。 seqeval模块支持的标注格式如下所示:IOB1IOB2IOE1IOE2IOBES 提供的评估指标方法如下所示:metrics description accuracy_score(y_true, y_pred)...

2020-07-13 13:57:45 151

原创 Python数据相关性分析实践记录

数据分析是很多建模挖掘类任务的基础,也是非常重要的一项工作,在我之前的系列博文里面已经详细介绍过很多数据分析相关的内容和实践工作了,与之对应的最为常见的分析手段就是热力图可视化分析了,这里我简单给出来自己之前的几篇相关的文章,感兴趣的话可以前去查阅。 《Python基于seaborn绘制喜欢的热力图,不同色系一览》 ...

2020-07-08 14:41:09 249

原创 基于百度开源项目LAC实现文本分词、词性标注和命名实体识别
原力计划

文本分词、词性标注和命名实体识别都是自然语言处理领域里面很基础的任务,他们的精度决定了下游任务的精度,今天在查资料的时候无意间发现了一个很好玩的开源项目,具体查了一下才知道这是百度开源的一个主要用于词性标注和命名实体识别的项目,决定拿来尝试一下。 首先是项目环境的配置安装,当前已经支持一键式安装了,具体命令如下所示:python -m pip install LAC 简单进行一下安装验证,成功截图如下所示: 接下来就可以进行使用了,官方Git...

2020-07-07 09:09:34 322

原创 Python电影票房数据可视化分析基础实践

数据可视化一直是很多数据分析或者是建模挖掘任务里面经常会用到的一项功能,今天我们基于某电影网站中公开发布的电影票房数据进行一些基础的数据可视化分析实践,下面是部分的数据样例:叶问.,20160304,33151,2193,196.9万,33.96%,46捉妖记,20150718,17860,995,192.71万,64.49%,47复仇者联盟2:奥创纪元,20150517,29444,1152,179.88万,37.52%,50.1我和我的祖国,20191002,36420,9522...

2020-07-02 13:43:44 245

提示
确定要删除当前文章?
取消 删除