自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_42078618的博客

原创爬虫技术之食物链顶端——逆向

一、爬虫引言距离最近一次博客的更新，已经快半年了。这么久一直没写博客，是因为最近半年在跟几个小伙伴打造一个tiktok的数据平台，乐不思蜀。今天抽空特意记录分享一下我认为的爬虫技术的顶端——逆向。这里的逆向主要是指app逆向，这里的app逆向又主要是指安卓的。至于原因，咱们待会聊。再次回归到爬虫技术，一方面是因为，在这信息爆炸的时代，信息的抽取、分析和总结是一项非常重要的技能。另一方面，虽然之前一直热衷于dnn和算法领域的探索，后来才意识到，神经网络和算法的落地，一定...

2020-10-11 18:41:36 7738 1

原创地表最强一阶段目标检测框架：yolov4之tf2+版本

从第一版的yolov3（http://github.com/qqwweee/keras-yolo3）在这位q神翻译出来后，在下一直跟进yolo的发展，两年前第一次迁移了q神的keras版。最近keras版的yolov4（http://github.com/Ma-Dan/keras-yolo4）也问世了。由于tf发展到了tf2+，很多模型建立过程、命名规则、文件读取方法以及keras的支持等，都做了非常大的调整，再加上该版本的代码是延续yolov3的代码，没有使用论文的很多tricks，加上历...

2020-05-25 23:05:36 1629 1

原创 redis + json = rejson

redis是目前使用最广泛的缓存数据库，没有之一，并且不接受反驳（手动滑稽）redis官方版支持大五种结构：key-value、list、set、zset、hash这一集，我们主要讨论hash，以python为例。在redis里面，我们可以这么存数据：hset：{name: xiaoluo}是吧，但是在绝大多数情况，比如后台的restful接口，可能会是这样的：{"d...

2020-03-03 23:14:00 2867

原创一文带你走完Nginx的配置方法（Nginx+Flask）

作为一个南方人，我每天都洗澡，一年四季，从不间断。甚至我在北京读书的7年，都这么过来的（除开几次喝醉的情况）。洗澡是一件很舒服的事情，你可以完全放松，听着music，哼着小曲，多么惬意。阿基米德也是在洗澡的时候发现了浮力，以此证明：洗澡是件好事！今天在洗澡的时候，我突然领悟到了nginx的反向代理是干嘛的，于是我哐哧哐哧的研究了一晚上怎么配置nginx。以下上干货！一、安装（ubun...

2020-02-23 23:31:19 2598

原创关于胶囊网络（Capsule Net）的个人理解

最近在跟踪keras的contri版的更新时，发现了冒出了一个Capsule层。于是我百度+谷歌一顿操作猛如虎，才发现在很早之前，胶囊网络的概念就提出了。但是限于胶囊网络的performance并不是在各个数据集都是碾压的情况，并且其计算量偏大，训练时间偏长，所以并没有被广泛的运用和替换。但是在官方给出的测试结果来看，其实效果还是挺不错的。以上是原论文（https://ar...

2019-12-13 16:04:08 10111 4

原创 darknet + yolo3 训练自己的数据集

2018年年中的时候，一不小心接触到了物体检测届的一位佼佼者，一阶段检测框架yolo，于是花了几个月研究并记录下来。直到最近，在工作上要用到物体检测，我第一反应就是yolo3，于是把训练的步骤和过程详细记录下来，给各位分享分享。首先，如果你想用tensorflow版的yolo3去训练，肯定会搜到https://github.com/qqwweee/keras-yolo3这个github的开源...

2019-10-17 10:11:23 1861

原创图像处理——pdf表格处理

最近一直在处理金融方面的数据，其中比较难搞定的是财务报表里面的表格数据。很多非常有用的信息全部浓缩在表格里面，比如如下：这个算是比较规整的、行列整齐的表格。下面的就稍微难一些些：于是，研究了几天，做出了一版基本可用的单元格切割方案。脚本见：https://github.com/yfyvan/table_crop基本思路如下：（1）横竖线定位用的是卷积 ...

2019-09-26 11:13:12 854

原创 keras-bert 分类实战，代码重构

久仰bert大名，终于痛下杀手对bert做一个从肉体到精神上的深入探究和了解在参观了https://github.com/google-research/bert和https://github.com/CyberZHG/keras-bert后，我也决定重写一份keras版本的keras-bert（https://github.com/yfyvan/keras-bert-core），毕竟，是吧...

2019-08-15 17:18:58 2590 5

原创三维视图详解keras.permute_dimensions和numpy.transpose转置效果

二维的转置大家都很熟悉，横轴变纵轴嘛，1 2 3 1 4 74 56 转一下变成 2 5 87 89 3 6 9但是对于深度学习来说，尤其在transformer以及后来的bert模型出世以后，需要对多个大批次的多个部分的二维数据进行转置，...

2019-08-10 10:13:24 9628 3

原创源码剖析transformer、self-attention

首先给大家引入一个github博客，这份代码是我在看了4份transformer的源码后选出来的，这位作者的写法非常易懂，代码质量比较高。https://github.com/Separius/BERT-keras这篇文章主要跟大家分享四个点：多头机制(multi-head)、LN和GELU、位置编码。在这再给大家安利几篇博客，便于大家更具体的理解自注意力的内在原理。https://z...

2019-07-02 14:33:29 14364 7

原创 ubuntu系统一键搭建hadoop+hdfs+spark+yarn

先上自己写的两个脚本吧https://github.com/yfyvan/bigdata_deploy在介绍脚本用法之前，咱们先看看一些配置一：hadoop（1）etc/hadoop/core-site.xml<configuration> <property> <name>fs.defaultFS</n...

2019-06-25 16:03:29 853

原创四图秒懂BN、LN和IN

DL常见的三大网络类型，CNN、RNN和GAN，CNN用于CV领域较多，RNN则用于NLP方向较多，GAN就比较特殊，娱乐向的CV。而其中，最常用、最高效的三个技术点就是BN、LN和IN了，他们是三种网络的典型代表作。1、BN（BatchNormalization）看图说话。我们假设有一批图像的feature maps传入网络中（如上）。其中，N表示batch_size，9*...

2019-06-01 17:12:02 8648 6

原创一问带你看懂循环神经网络小黑匣内部结构——LSTM

今天给大家分享分享循环神经网络（以LSTM为研究对象）的内部计算逻辑，本次博客从keras源码，并结合一位博主的博客对其进行详细剖析。博客：https://www.cnblogs.com/wangduo/p/6773601.html?utm_source=itdadao&utm_medium=referral，这是一篇非常经典且详细的博客，大家一定要抽时间去过一遍，并仔细思考。探讨之前，假...

2019-04-12 16:09:21 2636 2

原创词句相似度计算——余弦相似度

余弦相似度，是一种通过判断两个向量的夹角来判断其相似性的数学方法。举个栗子：A:中国工商银行北京分部北京支行B:中国招商银行广西分部桂林支行我们用“余弦相似度”的办法来判断这两个句子的相似性1、分词！第一步要做的肯定是分词，把一个句子分成一组一组的散词，分词一般我们会用现成的语料库，比如结巴分词是吧，传说中的最好用的中文分词模块包。如果不是专业性特别强的方向，足矣，如果是专...

2019-04-11 17:44:22 6216 2

原创 sql转nosql的第一件事：能不能实现复杂计算逻辑——MongoDB

公司开始要把部分业务转到NoSQL上，并且决定开始使用mongodb作为技术栈，于是花了两天时间搭建服务、学习语法，以下给大家分享一些关系型数据库sqlserver在非关系型数据库mongodb的一些复杂语句的实现。首先，假设我们有一张表（集合：info），这张表有6个字段，分别是itemid（商品ID）title（商品名称）price（价格）vol（销量）val（销...

2019-02-20 18:03:37 787

原创 frcnn和yolo3损失函数详解

在分享了yolo3的庖丁解牛版后，陆续有一些小伙伴发来信息说，损失函数讲的太简单了 - -，各位大哥，我错了，现在把yolo3的损失函数重新一点一点刨开，同时预先对接下来要分享的faster rcnn中的损失函数部分一起，提前跟大家一点一点解释清楚，以提早发现问题，方便我在重组代码时能把注释写得明明白白的。先上frcnn吧。。。代码参考：https://github.com/ldhsig...

2019-02-20 17:59:25 10779 22

原创深度学习之——可分离卷积

前段时间keras做了一些更新，我在源码里发现了几个小更新，其中我挑了一两个比较重要的更新点，跟大家分享分享。1、SeparableConv2D 深度可分离卷积是Inception网络结构里的经典用法。在卷积网络中，无外乎两个探索点，一个深度优先，常见的就是VGG网络，另外一个就是宽度优先，典型得当属Inception网络。Inception网络中，使用了一个非常巧妙的方式，把不同感受野...

2019-01-11 15:55:14 1195

原创 GAN与CycleGAN的结构解析

当下神经网络三大主流子领域：CNN、RNN和GAN。今天咱们主要分享一下生成对抗网络——GAN的一些核心思想，并以CycleGAN为例进行阐述。借自：https://github.com/eriklindernoren/Keras-GAN·GAN首先，常规的GAN网络长什么样，我们以https://github.com/eriklindernoren/Keras-GAN/tree/...

2019-01-11 14:03:16 12257

原创层层逼近，了解Norm系需要解决的问题及其衍生变体

引自：https://zhuanlan.zhihu.com/p/33173246https://blog.csdn.net/xiao_lxl/article/details/72730000https://github.com/switchablenorms/Switchable-Normalization 开宗明义，到底Norm是需要解决什么问题，先拿最早也应用最广的BN来说...

2019-01-02 14:28:51 335

原创卷积神经网络新姿势（2）——其他

最近看着这些新姿势，一不小心就到大半夜了，所以这里不一一细说了，把一些我认为很有潜力或者优势的新姿势给大家分享分享。1、sinereluReLU函数的一个变体，对relu添加波动因子，在ReLU系，略优于其他 2、swish对sigmoid函数的一个大更新或者大发现，公式：y = x * sigmoid(βx)论文：https://arxiv.org/abs/1710.05...

2018-12-30 19:35:25 330

原创卷积神经网络新姿势（1）——CosineConv2D（余弦卷积）

最近在逛arxiv的时候，突然发现很多CNN领域的新秀，这里给大家分享一个卷积过程的小鲜肉——CosineConv2D，虽然距离论文发表已经一年多了，但是这绝对是个好东西，并且在将来在某些方面应该是慢慢把常规卷积模块给替代掉的。先放论文地址：https://arxiv.org/pdf/1702.05870.pdf这篇论文讲个什么呢？咱们先画重点。我们常规的卷积过程，就是x...

2018-12-28 23:56:22 2062

原创 YOLOv3庖丁解牛（四）：YOLOv3整体归纳总结

前三篇博客我们从三个方向过了一遍yolov3框架结构，最后这篇来总结一下yolo的亮点和不足。以下就木有配图了，有兴趣的大家耐心过一下。首先聊聊它出彩的地方。1、yolo系列最让人激动的形式在于you only look once，一次性就完成所有的预测和检测任务，这是rcnn结构下没办法做到的。其主要得益于loss的逻辑设计上。（1）在计算loss的时候，真实值和预测值设计成了b...

2018-12-17 12:44:33 3329 2

原创 YOLOv3庖丁解牛（三）：YOLOv3损失函数

1、首先我们看一下他的输入参数model_loss = Lambda(yolo_loss, output_shape=(1,), name='yolo_loss', arguments={'anchors': anchors, 'num_classes': num_classes, 'ignore_thresh': 0.5})( ...

2018-12-15 23:10:12 31146 26

原创 YOLOv3庖丁解牛（二）：数据输入

一、源数据存储。首先我们得保证我们的数据跟大牛代码的格式保持一致。1、图片。图片以文件的形式存放，放在哪无所谓，但是在传入的时候必须给到正确的地址。比如/opt/others/data2007/VOC2007/JPEGImages/000073.jpg/opt/others/data2007/VOC2007/JPEGImages/000003.jpg2、标注。内容放在一个txt文本...

2018-12-14 16:05:38 4376 5

原创 YOLOv3庖丁解牛（一）：网络结构

经过大约一个月对YOLO3理论和源码的阅读，今天开始逐渐记录自己对这一大神作的理解。本文在基于对CNN、keras、tensorflow有一定掌控力的基础上进行描述。首先，贴出python版star最多的源码地址：https://github.com/qqwweee/keras-yolo3，各位看官可移步阅读。过一段时间我会把自己对每一步源码的注释都附上。目前可进行工业部署的两大物体检...

2018-12-11 16:45:10 8697 1

原创深入理解 Embedding层的本质

继上文https://blog.csdn.net/weixin_42078618/article/details/82999906探讨了embedding层的降维效果，时隔一个月，分享一下嵌入层在NPL领域的巨大作用。本文的发表建立在了解文本转向量（如one-hot）的用法的前提上。首先，继续假设我们有一句话，叫“公主很漂亮”，如果我们使用one-hot编码，可能得到的编码如下...

2018-11-26 18:58:43 14175 23

原创一文带你看懂CNN反向传播原理

看这篇文章，看官需要了解常规CNN模型的结构，并且了解结构下的各层计算逻辑。OK，我们这次对CNN从全连接层到计算损失函数大致三个阶段进行推导和分析。全连接层——激活层（一般只把它看做一个函数，但是其实keras里面把它作为一个层）——输出层（计算损失） 1、假设全连接层的输入（即上一层的输出）为x，全连接层的权重参数（神经元）为w，则全连接层的输出为这个过程是一个矩...

2018-11-18 00:02:49 3577 2

原创浅析卷积神经网络为何能够进行特征提取

CNN在分类领域，有着惊人的效果。我们今天来聊聊为何CNN能有这么大的能力。在此之前，我们先了解两个数学概念，特征值和特征向量。这里先放3个传送门：https://blog.csdn.net/hjq376247328/article/details/80640544https://blog.csdn.net/woainishifu/article/details/76418176...

2018-11-09 16:56:01 39549 8

原创 Logistic Regression原理探讨

2018-11-08 11:38:04 292

原创 python37 dataclass分享与思考

在python37版本中，引入了一个新的装饰器，@dataclass对于官方的介绍，譬如一键生成__init__, repr等魔法函数就不先讨论了，直接告诉大家这个东西怎么玩首先，常规类定义和调用方法class Test: className = 'Test' def __init__(self, name, age): self.name ...

2018-10-12 12:17:33 1327

原创 CNN中全局池化和全连接层的相对讨论

一般情况下，在全连接层之前，我们会把池化的feature map进行flatten，比如200个3x3，会拉成1800x1的列向量，而后如果设置了50个神经元，则系统会生成50个1x1800的矩阵跟你的feature map进行矩阵乘法运算——>>> 50 x （1x1800x1800x1） ——>>> 变成一个50个元素的列向量最后如果你要分成10类，...

2018-10-11 23:32:50 2591

原创深度学习中 Embedding层两大作用的个人理解

前一个月接触到一个概念，Embedding层。今天跟大家分享一下个人心得。首先，我们有一个one-hot编码的概念。假设，我们中文，一共只有10个字。。。只是假设啊，那么我们用0-9就可以表示完比如，这十个字就是“我从哪里来，要到何处去”其分别对应“0-9”，如下：我从哪里来要到何处去0 1 2 3 4 ...

2018-10-10 17:45:33 45360 69

原创卷积神经网络-BN、Dropout、leaky_relu (tensorflow)

神经网络是一种比较难以理解的结构，关于神经网络的各种层次的说明解释，大家请移步百度、google本次的分享会从人类视觉角度、生物角度谈一谈神经网络中的一些优化算法。首先，计算机领域设计出来的算法、模型和数据结构，都可以理解为一种建模操作（这是一种解释方式）。比如：决策树，可以理解为把数据结构仿造树枝树干的结构进行设计的，以树为模型；SVM，可以理解为把数据堆从多维的角度，进行高维分类...

2018-09-04 16:53:32 8432 1

原创技术分享-python-sklearn-决策树

决策树是一个很神奇的东西，原理上，只要你这棵树足够大，足够复杂，其准确度可以媲美神经网络。当然，此时过拟合的可能性也非常高了。原理性的东西不多聊了，直接切题。本次技术分享贴主要跟大家分享一下如何在python的sklearn中使用决策树进行数据的训练和预测。（1）首先，大家自行安装sklearn包，此处假设大家都已经有这个包了，我们先导入相关包# tree是建树用的模块，datase...

2018-08-27 18:45:08 670

原创关于交叉熵的个人理解

在信息论和机器学习中，常常会聊到交叉熵这个概念，用这个专有名词来计算预测结果与实际结果的差距，简单地说就是判断学习的好与坏。那为了方便大家更加比较抽象地理解什么是交叉熵，我们先来聊一下什么是熵。一：熵熵，简而言之就是信息量。举个栗子：罗大黑同志，每天早上的早饭都是螺蛳粉，一年下来天天如此。然后，今天，我又看见罗大黑同志早餐去吃螺蛳粉，...

2018-08-16 11:46:37 2888 5

原创技术分享-Spark-安装与部署

spark集群主要有三种方式，standalone、on mesos 和 on yarnstandalone模式指：以spark架构为主集群资源管理模式，即资源的管理和分配以及任务调度都由spark生态来完成spark on mesos和spark on yarn是把资源管理和分配交给其他框架来实现，这是将来的趋势。其中yarn又是基于hadoop架构的，配置yarn还需要更多地配置...

2018-08-15 23:21:39 226

原创技术分享-SQL-（2）更新与插入

本期主要函数有三：insert、update和merge into 首先我们利用上次的数据表简历两份新表，数据表链接：https://download.csdn.net/download/weixin_42078618/10555285在mysql：create table goodsinfo_1 select * from tmp.goodsinfo where the_m...

2018-07-21 23:27:36 698

原创技术分享-SQL-（1）四大排序/分析函数

一般而言，在数据库里面，用来做排序的函数主要有四个：row_number、renk、dense_rank、ntile此处以sqlserser操作方法作解析，此处我把该表放在tmp库下的goosinfo表里，使用数据可移步：数据库练习数据 1、row_number该函数一般形如：row_number() over()（1）查询2018年6月的销额排行 SELE...

2018-07-15 22:47:44 3710

原创技术分享-Redis（3）

前面两个章节把redis的基础大都介绍了，这章节主要分享redis的配置，配置才是王道。对于玩过的一些技术栈django、mysql、sqlserver、hadoop、hive、spark，其难点根本不是语法，而是deployment！！！部署真的是搞死人。redis主要可以分成三种模式：普通模式（或者可以认为是master模式）、slave模式和sentinel模式。master可以是单机模式，...

2018-07-10 00:01:05 350

原创技术分享-Redis（2）

import redis# 如果没有设置密码，怎不需要输入passwordcon = redis.Redis(host='localhost', port=6379, db=0, password='321')"""(1)---键值对操作"""# 设置键值# 无则添加con.set(name='myname', value='dahei', ex=10, nx=True)# 有...

2018-07-03 19:41:44 250

数据库练习数据

该文件用于对数据库操作的一些练习使用，内容为京东品台方便面卖的比较好的一些商品数据

2018-07-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除