自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 资源 (1)
  • 收藏
  • 关注

原创 爬虫技术之食物链顶端——逆向

一、爬虫引言 距离最近一次博客的更新,已经快半年了。这么久一直没写博客,是因为最近半年在跟几个小伙伴打造一个tiktok的数据平台,乐不思蜀。今天抽空特意记录分享一下我认为的爬虫技术的顶端——逆向。这里的逆向主要是指app逆向,这里的app逆向又主要是指安卓的。至于原因,咱们待会聊。 再次回归到爬虫技术,一方面是因为,在这信息爆炸的时代,信息的抽取、分析和总结是一项非常重要的技能。另一方面,虽然之前一直热衷于dnn和算法领域的探索,后来才意识到,神经网络和算法的落地,一定...

2020-10-11 18:41:36 7331 1

原创 地表最强一阶段目标检测框架:yolov4之tf2+版本

从第一版的yolov3(http://github.com/qqwweee/keras-yolo3)在这位q神翻译出来后,在下一直跟进yolo的发展,两年前第一次迁移了q神的keras版。最近keras版的yolov4(http://github.com/Ma-Dan/keras-yolo4)也问世了。由于tf发展到了tf2+,很多模型建立过程、命名规则、文件读取方法以及keras的支持等,都做了非常大的调整,再加上该版本的代码是延续yolov3的代码,没有使用论文的很多tricks,加上历...

2020-05-25 23:05:36 1553 1

原创 redis + json = rejson

redis是目前使用最广泛的缓存数据库,没有之一,并且不接受反驳(手动滑稽)redis官方版支持大五种结构:key-value、list、set、zset、hash这一集,我们主要讨论hash,以python为例。在redis里面,我们可以这么存数据:hset:{name: xiaoluo}是吧,但是在绝大多数情况,比如后台的restful接口,可能会是这样的:{"d...

2020-03-03 23:14:00 2754

原创 一文带你走完Nginx的配置方法(Nginx+Flask)

作为一个南方人,我每天都洗澡,一年四季,从不间断。甚至我在北京读书的7年,都这么过来的(除开几次喝醉的情况)。洗澡是一件很舒服的事情,你可以完全放松,听着music,哼着小曲,多么惬意。阿基米德也是在洗澡的时候发现了浮力,以此证明:洗澡是件好事!今天在洗澡的时候,我突然领悟到了nginx的反向代理是干嘛的,于是我哐哧哐哧的研究了一晚上怎么配置nginx。以下上干货!一、安装(ubun...

2020-02-23 23:31:19 2459

原创 关于胶囊网络(Capsule Net)的个人理解

最近在跟踪keras的contri版的更新时,发现了冒出了一个Capsule层。于是我百度+谷歌一顿操作猛如虎,才发现在很早之前,胶囊网络的概念就提出了。但是限于胶囊网络的performance并不是在各个数据集都是碾压的情况,并且其计算量偏大,训练时间偏长,所以并没有被广泛的运用和替换。但是在官方给出的测试结果来看,其实效果还是挺不错的。以上是原论文(https://ar...

2019-12-13 16:04:08 9852 4

原创 darknet + yolo3 训练自己的数据集

2018年年中的时候,一不小心接触到了物体检测届的一位佼佼者,一阶段检测框架yolo,于是花了几个月研究并记录下来。直到最近,在工作上要用到物体检测,我第一反应就是yolo3,于是把训练的步骤和过程详细记录下来,给各位分享分享。首先,如果你想用tensorflow版的yolo3去训练,肯定会搜到https://github.com/qqwweee/keras-yolo3这个github的开源...

2019-10-17 10:11:23 1795

原创 图像处理——pdf表格处理

最近一直在处理金融方面的数据,其中比较难搞定的是财务报表里面的表格数据。很多非常有用的信息全部浓缩在表格里面,比如如下:这个算是比较规整的、行列整齐的表格。下面的就稍微难一些些:于是,研究了几天,做出了一版基本可用的单元格切割方案。脚本见:https://github.com/yfyvan/table_crop基本思路如下:(1)横竖线定位用的是卷积 ...

2019-09-26 11:13:12 769

原创 keras-bert 分类实战,代码重构

久仰bert大名,终于痛下杀手对bert做一个从肉体到精神上的深入探究和了解在参观了https://github.com/google-research/bert和https://github.com/CyberZHG/keras-bert后,我也决定重写一份keras版本的keras-bert(https://github.com/yfyvan/keras-bert-core),毕竟,是吧...

2019-08-15 17:18:58 2501 5

原创 三维视图详解keras.permute_dimensions和numpy.transpose转置效果

二维的转置大家都很熟悉,横轴变纵轴嘛,1 2 3 1 4 74 56 转一下变成 2 5 87 89 3 6 9但是对于深度学习来说,尤其在transformer以及后来的bert模型出世以后,需要对多个大批次的多个部分的二维数据进行转置,...

2019-08-10 10:13:24 9442 3

原创 源码剖析transformer、self-attention

首先给大家引入一个github博客,这份代码是我在看了4份transformer的源码后选出来的,这位作者的写法非常易懂,代码质量比较高。https://github.com/Separius/BERT-keras这篇文章主要跟大家分享四个点:多头机制(multi-head)、LN和GELU、位置编码。在这再给大家安利几篇博客,便于大家更具体的理解自注意力的内在原理。https://z...

2019-07-02 14:33:29 13724 7

原创 ubuntu系统一键搭建hadoop+hdfs+spark+yarn

先上自己写的两个脚本吧https://github.com/yfyvan/bigdata_deploy在介绍脚本用法之前,咱们先看看一些配置一:hadoop(1)etc/hadoop/core-site.xml<configuration> <property> <name>fs.defaultFS</n...

2019-06-25 16:03:29 753

原创 四图秒懂BN、LN和IN

DL常见的三大网络类型,CNN、RNN和GAN,CNN用于CV领域较多,RNN则用于NLP方向较多,GAN就比较特殊,娱乐向的CV。而其中,最常用、最高效的三个技术点就是BN、LN和IN了,他们是三种网络的典型代表作。1、BN(BatchNormalization)看图说话。我们假设有一批图像的feature maps传入网络中(如上)。其中,N表示batch_size,9*...

2019-06-01 17:12:02 7818 6

原创 一问带你看懂循环神经网络小黑匣内部结构——LSTM

今天给大家分享分享循环神经网络(以LSTM为研究对象)的内部计算逻辑,本次博客从keras源码,并结合一位博主的博客对其进行详细剖析。博客:https://www.cnblogs.com/wangduo/p/6773601.html?utm_source=itdadao&utm_medium=referral,这是一篇非常经典且详细的博客,大家一定要抽时间去过一遍,并仔细思考。探讨之前,假...

2019-04-12 16:09:21 2534 2

原创 词句相似度计算——余弦相似度

余弦相似度,是一种通过判断两个向量的夹角来判断其相似性的数学方法。举个栗子:A:中国工商银行北京分部北京支行B:中国招商银行广西分部桂林支行我们用“余弦相似度”的办法来判断这两个句子的相似性1、分词!第一步要做的肯定是分词,把一个句子分成一组一组的散词,分词一般我们会用现成的语料库,比如结巴分词是吧,传说中的最好用的中文分词模块包。如果不是专业性特别强的方向,足矣,如果是专...

2019-04-11 17:44:22 5926 2

原创 sql转nosql的第一件事:能不能实现复杂计算逻辑——MongoDB

公司开始要把部分业务转到NoSQL上,并且决定开始使用mongodb作为技术栈,于是花了两天时间搭建服务、学习语法,以下给大家分享一些关系型数据库sqlserver在非关系型数据库mongodb的一些复杂语句的实现。 首先,假设我们有一张表(集合:info),这张表有6个字段,分别是itemid(商品ID)title(商品名称)price(价格)vol(销量)val(销...

2019-02-20 18:03:37 664

原创 frcnn和yolo3损失函数详解

在分享了yolo3的庖丁解牛版后,陆续有一些小伙伴发来信息说,损失函数讲的太简单了 - -,各位大哥,我错了,现在把yolo3的损失函数重新一点一点刨开,同时预先对接下来要分享的faster rcnn中的损失函数部分一起,提前跟大家一点一点解释清楚,以提早发现问题,方便我在重组代码时能把注释写得明明白白的。 先上frcnn吧。。。代码参考:https://github.com/ldhsig...

2019-02-20 17:59:25 10642 22

原创 深度学习之——可分离卷积

前段时间keras做了一些更新,我在源码里发现了几个小更新,其中我挑了一两个比较重要的更新点,跟大家分享分享。1、SeparableConv2D 深度可分离卷积是Inception网络结构里的经典用法。在卷积网络中,无外乎两个探索点,一个深度优先,常见的就是VGG网络,另外一个就是宽度优先,典型得当属Inception网络。Inception网络中,使用了一个非常巧妙的方式,把不同感受野...

2019-01-11 15:55:14 1086

原创 GAN与CycleGAN的结构解析

当下神经网络三大主流子领域:CNN、RNN和GAN。今天咱们主要分享一下生成对抗网络——GAN的一些核心思想,并以CycleGAN为例进行阐述。借自:https://github.com/eriklindernoren/Keras-GAN·GAN首先,常规的GAN网络长什么样,我们以https://github.com/eriklindernoren/Keras-GAN/tree/...

2019-01-11 14:03:16 11929

原创 层层逼近,了解Norm系需要解决的问题及其衍生变体

引自:https://zhuanlan.zhihu.com/p/33173246https://blog.csdn.net/xiao_lxl/article/details/72730000https://github.com/switchablenorms/Switchable-Normalization 开宗明义,到底Norm是需要解决什么问题,先拿最早也应用最广的BN来说...

2019-01-02 14:28:51 282

原创 卷积神经网络新姿势(2)——其他

最近看着这些新姿势,一不小心就到大半夜了,所以这里不一一细说了,把一些我认为很有潜力或者优势的新姿势给大家分享分享。1、sinereluReLU函数的一个变体,对relu添加波动因子,在ReLU系,略优于其他 2、swish对sigmoid函数的一个大更新或者大发现,公式:y = x * sigmoid(βx)论文:https://arxiv.org/abs/1710.05...

2018-12-30 19:35:25 269

原创 卷积神经网络新姿势(1)——CosineConv2D(余弦卷积)

最近在逛arxiv的时候,突然发现很多CNN领域的新秀,这里给大家分享一个卷积过程的小鲜肉——CosineConv2D,虽然距离论文发表已经一年多了,但是这绝对是个好东西,并且在将来在某些方面应该是慢慢把常规卷积模块给替代掉的。先放论文地址:https://arxiv.org/pdf/1702.05870.pdf这篇论文讲个什么呢?咱们先画重点。 我们常规的卷积过程,就是x...

2018-12-28 23:56:22 1847

原创 YOLOv3庖丁解牛(四):YOLOv3整体归纳总结

前三篇博客我们从三个方向过了一遍yolov3框架结构,最后这篇来总结一下yolo的亮点和不足。以下就木有配图了,有兴趣的大家耐心过一下。首先聊聊它出彩的地方。1、yolo系列最让人激动的形式在于you only look once,一次性就完成所有的预测和检测任务,这是rcnn结构下没办法做到的。其主要得益于loss的逻辑设计上。(1)在计算loss的时候,真实值和预测值设计成了b...

2018-12-17 12:44:33 3268 2

原创 YOLOv3庖丁解牛(三):YOLOv3损失函数

1、首先我们看一下他的输入参数model_loss = Lambda(yolo_loss, output_shape=(1,), name='yolo_loss', arguments={'anchors': anchors, 'num_classes': num_classes, 'ignore_thresh': 0.5})( ...

2018-12-15 23:10:12 30979 26

原创 YOLOv3庖丁解牛(二):数据输入

一、源数据存储。首先我们得保证我们的数据跟大牛代码的格式保持一致。1、图片。图片以文件的形式存放,放在哪无所谓,但是在传入的时候必须给到正确的地址。比如/opt/others/data2007/VOC2007/JPEGImages/000073.jpg/opt/others/data2007/VOC2007/JPEGImages/000003.jpg2、标注。内容放在一个txt文本...

2018-12-14 16:05:38 4213 5

原创 YOLOv3庖丁解牛(一):网络结构

经过大约一个月对YOLO3理论和源码的阅读,今天开始逐渐记录自己对这一大神作的理解。本文在基于对CNN、keras、tensorflow有一定掌控力的基础上进行描述。首先,贴出python版star最多的源码地址:https://github.com/qqwweee/keras-yolo3,各位看官可移步阅读。过一段时间我会把自己对每一步源码的注释都附上。目前可进行工业部署的两大物体检...

2018-12-11 16:45:10 8585 1

原创 深入理解 Embedding层的本质

继上文https://blog.csdn.net/weixin_42078618/article/details/82999906探讨了embedding层的降维效果,时隔一个月,分享一下嵌入层在NPL领域的巨大作用。 本文的发表建立在了解文本转向量(如one-hot)的用法的前提上。 首先,继续假设我们有一句话,叫“公主很漂亮”,如果我们使用one-hot编码,可能得到的编码如下...

2018-11-26 18:58:43 13479 23

原创 一文带你看懂CNN反向传播原理

看这篇文章,看官需要了解常规CNN模型的结构,并且了解结构下的各层计算逻辑。OK,我们这次对CNN从全连接层到计算损失函数大致三个阶段进行推导和分析。 全连接层——激活层(一般只把它看做一个函数,但是其实keras里面把它作为一个层)——输出层(计算损失) 1、假设全连接层的输入(即上一层的输出)为x,全连接层的权重参数(神经元)为w,则全连接层的输出为这个过程是一个矩...

2018-11-18 00:02:49 3468 2

原创 浅析卷积神经网络为何能够进行特征提取

CNN在分类领域,有着惊人的效果。我们今天来聊聊为何CNN能有这么大的能力。在此之前,我们先了解两个数学概念,特征值和特征向量。这里先放3个传送门:https://blog.csdn.net/hjq376247328/article/details/80640544https://blog.csdn.net/woainishifu/article/details/76418176...

2018-11-09 16:56:01 38329 7

原创 Logistic Regression原理探讨

2018-11-08 11:38:04 246

原创 python37 dataclass分享与思考

在python37版本中,引入了一个新的装饰器,@dataclass对于官方的介绍,譬如一键生成__init__, repr等魔法函数就不先讨论了,直接告诉大家这个东西怎么玩首先,常规类定义和调用方法class Test: className = 'Test' def __init__(self, name, age): self.name ...

2018-10-12 12:17:33 1251

原创 CNN中 全局池化和全连接层的相对讨论

一般情况下,在全连接层之前,我们会把池化的feature map进行flatten,比如200个3x3,会拉成1800x1的列向量,而后如果设置了50个神经元,则系统会生成50个1x1800的矩阵跟你的feature map进行矩阵乘法运算——&gt;&gt;&gt; 50 x (1x1800x1800x1) ——&gt;&gt;&gt; 变成一个50个元素的列向量最后如果你要分成10类,...

2018-10-11 23:32:50 2466

原创 深度学习中 Embedding层两大作用的个人理解

前一个月接触到一个概念,Embedding层。今天跟大家分享一下个人心得。 首先,我们有一个one-hot编码的概念。 假设,我们中文,一共只有10个字。。。只是假设啊,那么我们用0-9就可以表示完比如,这十个字就是“我从哪里来,要到何处去”其分别对应“0-9”,如下:我  从  哪  里  来  要  到  何  处  去0    1    2    3   4 ...

2018-10-10 17:45:33 44077 69

原创 卷积神经网络-BN、Dropout、leaky_relu (tensorflow)

神经网络是一种比较难以理解的结构,关于神经网络的各种层次的说明解释,大家请移步百度、google本次的分享会从人类视觉角度、生物角度谈一谈神经网络中的一些优化算法。 首先,计算机领域设计出来的算法、模型和数据结构,都可以理解为一种建模操作(这是一种解释方式)。比如:决策树,可以理解为把数据结构仿造树枝树干的结构进行设计的,以树为模型;SVM,可以理解为把数据堆从多维的角度,进行高维分类...

2018-09-04 16:53:32 8286 1

原创 技术分享-python-sklearn-决策树

决策树是一个很神奇的东西,原理上,只要你这棵树足够大,足够复杂,其准确度可以媲美神经网络。当然,此时过拟合的可能性也非常高了。原理性的东西不多聊了,直接切题。本次技术分享贴主要跟大家分享一下如何在python的sklearn中使用决策树进行数据的训练和预测。(1)首先,大家自行安装sklearn包,此处假设大家都已经有这个包了,我们先导入相关包# tree是建树用的模块,datase...

2018-08-27 18:45:08 601

原创 关于交叉熵的个人理解

在信息论和机器学习中,常常会聊到交叉熵这个概念,用这个专有名词来计算预测结果与实际结果的差距,简单地说就是判断学习的好与坏。那为了方便大家更加比较抽象地理解什么是交叉熵,我们先来聊一下什么是熵。一:熵        熵,简而言之就是信息量。       举个栗子:       罗大黑同志,每天早上的早饭都是螺蛳粉,一年下来天天如此。然后,今天,我又看见罗大黑同志早餐去吃螺蛳粉,...

2018-08-16 11:46:37 2751 5

原创 技术分享-Spark-安装与部署

 spark集群主要有三种方式,standalone、on mesos 和 on yarnstandalone模式指:以spark架构为主集群资源管理模式,即资源的管理和分配以及任务调度都由spark生态来完成spark on mesos和spark on yarn是把资源管理和分配交给其他框架来实现,这是将来的趋势。其中yarn又是基于hadoop架构的,配置yarn还需要更多地配置...

2018-08-15 23:21:39 171

原创 技术分享-SQL-(2)更新与插入

本期主要函数有三:insert、update和merge into 首先我们利用上次的数据表简历两份新表,数据表链接:https://download.csdn.net/download/weixin_42078618/10555285在mysql:create table goodsinfo_1 select * from tmp.goodsinfo where the_m...

2018-07-21 23:27:36 634

原创 技术分享-SQL-(1)四大排序/分析函数

一般而言,在数据库里面,用来做排序的函数主要有四个:row_number、renk、dense_rank、ntile此处以sqlserser操作方法作解析,此处我把该表放在tmp库下的goosinfo表里,使用数据可移步:数据库练习数据 1、row_number该函数一般形如:row_number() over()(1)查询2018年6月的销额排行   SELE...

2018-07-15 22:47:44 3633

原创 技术分享-Redis(3)

前面两个章节把redis的基础大都介绍了,这章节主要分享redis的配置,配置才是王道。对于玩过的一些技术栈django、mysql、sqlserver、hadoop、hive、spark,其难点根本不是语法,而是deployment!!!部署真的是搞死人。redis主要可以分成三种模式:普通模式(或者可以认为是master模式)、slave模式和sentinel模式。master可以是单机模式,...

2018-07-10 00:01:05 293

原创 技术分享-Redis(2)

import redis# 如果没有设置密码,怎不需要输入passwordcon = redis.Redis(host='localhost', port=6379, db=0, password='321')"""(1)---键值对操作"""# 设置键值# 无则添加con.set(name='myname', value='dahei', ex=10, nx=True)# 有...

2018-07-03 19:41:44 189

数据库练习数据

该文件用于对数据库操作的一些练习使用,内容为京东品台方便面卖的比较好的一些商品数据

2018-07-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除