自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 资源 (2)
  • 收藏
  • 关注

原创 使用paddleOCR实现文字识别

目的:Ubuntu 系统,给定一张图,识别图中的文字,以 “文字位置(4个2维坐标,可确定一个四边形)+文字内容 ”的形式返回输出。效果展示:下图中左图是原图,将ocr 检测到的文字区域框起来了;右图是按照原图大小生成的黑底图片,将ocr检测到的文字区域框起来,并将文字区域内识别的文字写进框内。项目代码:https://github.com/JianTang2000/OCR_certification在github的py_env_build.sh 和requirements...

2021-05-26 16:59:27 7457 6

原创 基于CNN的表情识别(FER)pytorch实现

Report for FERJian TangAbstract我们使用卷积神经网络(CNN)实现了baby的面部表情识别(FER)。数据上,我们获取了开源FER数据集FER2013[1],besides我们使用爬虫获取了baby相关的人脸图片,进行了手工分类标注以形成一个全新的baby FER数据集。模型上,我们首先复现了Luan[2]的工作,即参考Kuo[3]在CVPR 2018上的工作并实现一个轻量的CNN网络,在FER2013上进行训练并得到了XXXX%的平均分类准确率(avg a

2021-05-05 23:18:55 3332 3

原创 yolov5 实现 detect.py 处理单张图片+Flask服务

使用yoloV5 python接口(detect.py)处理图片并创建Flask服务。具体的说有三种场景:1 指定一张图片的位置/或使用cv2.imread() 的结果,进行model预测+画框+另存为新图片;2 启动一个Flask 服务 对外提供1的功能这里不得不说一下 yoloV5 提供了丰富的API接口,但是我用不太习惯,所以删减了一下detect.py的代码实现了功能1,同时保证功能1的输出和V3/V4接口有一致的形式。实现功能1的实现代码如下:这里不得不说一下,V5自带的

2021-01-28 17:11:25 8986 14

原创 yoloV5 配置+训练自己的图片

这部分上V5 和V4、V3不相似,但更简单拉取项目git clone https://github.com/ultralytics/yolov5cd yolov5pip install -r requirements.txt # install dependencies创建 dataset.yaml ,放置在yolov5文件夹里面# download command/URL (optional)# train and val data as 1) directory: path/i..

2021-01-28 16:49:14 5606 5

原创 yolov4 使用darknet的python接口处理单张图片和视频+Flask服务

目的使用yoloV4darknet自带的 python 接口处理图片和视频。具体的说有三种场景:1 指定一张图片的位置/或使用cv2.imread() 的结果,进行model预测+画框+另存为新图片;2指定一视频的位置,进行抽帧+model预测+画框+另存为新帧+新帧拼成新视频保存;实现作者提供的darknet.py有些复杂,我觉得不太好用,于是提供一个darknet_me.py实现上述功能1''' darknet.py 核心函数:load_network、dete..

2021-01-28 16:03:35 2482 4

原创 yoloV4 配置+训练自己的图片

这部分上V4和V3十分相似git clonehttps://github.com/AlexeyAB/darknet.git cd darknet 修改makefile一些配置,then make修改后的makefile如下GPU=1CUDNN=1CUDNN_HALF=0OPENCV=1AVX=0OPENMP=0LIBSO=1ZED_CAMERA=0ZED_CAMERA_v2_8=0# set GPU=1 and CUDNN=1 to speedup on GPU# s.

2021-01-28 15:49:52 1742

原创 Yolov3 使用Flask部署成为Python接口

目标部署yoloV3模型,提供 API ,入参是文件路径/图片文件流 ,出参为预测结果这个接口可以对入参的图片进行预测(仅支持单张),采用GPU预测,每张的耗时(仅计算模型预测耗时)< 20ms实现修改 .cfg 文件,改好的一个例子见如下:[net]# Testing# batch=1# subdivisions=1# Trainingbatch=1subdivisions=1width=608height=608channels=3momentum=0.9

2021-01-28 15:06:23 544

原创 目标检测性能评价实现

目的计算得到数值化指标(可能不止一个),以评判一个目标检测模型表现的好坏。(目标检测常用指标可参考:(https://blog.csdn.net/ruiying413/article/details/105031834))解释见下面这张图:绿色的两个框是 ground truth ,第一个类是person,第二个类是suitcase蓝色的5个框是bounding box(我手动指定大小和位置画出来的),每个框都没有给分类标签。...

2021-01-11 16:59:32 896 14

原创 变量分析 cheat sheet

条件:单变量&连续性变量 目的:验证单变量是否满足正态分布 思路:Shapiro-Wilk test + Q-Q plot 例子: x<-rnorm(10,0,2) shapiro.test(x) Shapiro-Wilk normality test data: x W = 0.92412, p-value = 0.392 条件:单变量&连续性变量&变量属于正态分布&...

2021-01-07 13:41:16 194

原创 yolov3训练自定义数据集

使用yolov3(https://github.com/pjreddie/darknet)训练自己的数据集,数据集大概一千张图,两个类别。0 使用labelimg 标注数据。 如对 aaa.jpg 文件进行标注,画一个框,类别为人,标注的结果是生成一个 aaa.txt 文件,内容为 class ,x,y,w,h1 clone 项目git clone https://github.com/pjreddie/darknetcd darknet2 找到makefile文件,进行一些修改.

2021-01-06 16:44:42 1258

原创 yolov3 使用darknet的python接口处理单张图片和视频和摄像头视频流

目标使用 darknet (https://github.com/pjreddie/darknet) 自带的 python 接口处理图片和视频。project 下载git clone https://github.com/pjreddie/darknetcd darknet#改一些配置 ,具体操作见 我的上一份博客的结尾部分#(https://blog.csdn.net/qq_20241587/article/details/111176541)make处理单张图片即:指定一张

2020-12-18 10:55:59 3741 2

原创 使用websockets实现后端服务器向前台客户端发消息, python + websockets+ vue

目标实现服务端(python实现)向客户端(Vue实现)发消息,这个消息不止一次(如间隔随机的1秒左右发一次),客户端前台界面动态接收并展示这个消息内容。一些原理# WebSocket 和HTTP一样,也是一种通讯协议,允许服务端主动向客户端推送数据。# 在 WebSocket API 中,浏览器和服务器只需要完成一次握手,两者之间就直接可以创建持久性的连接,并进行双向数据传输。# 有很多网站为了实现推送技术,所用的技术都是 Ajax 轮询。轮询是在特定的的时间间隔(如每1秒),# 由

2020-12-16 14:44:22 2059

原创 python图片爬虫,指定关键字爬取Google图片+搜狗图片

需求爬取若干张(>1000)图片,图片大小不限,后缀名不限,网站来源不限。环境windows + python3.7 + jupyter (or pycharm)备注这可能不是标准的爬虫写法,我仅仅是半路出家,临时上阵写的,但的确能用。实现如果你稍微懂一些 前端请求 & 前端控件写法 & 前端调试 & 后端服务请求 or java or python,可以直接参阅下面代码:import requestsimport urllibimport

2020-12-02 15:32:08 2635 1

原创 R 常用functions

写在前面R并不擅长在编程语言数据结构方面,但数据处理/建模/画图的过程中,有时确实用得到一些简单的的数据结构。R为弱类型语言,语法上也非常宽松,运行是基本不太会报错,但速度上略慢,比Python还慢,但这种慢除非大数据量不然并不会被感知到。这里总结了一下一些简单操作/list/vector/string/map常用方法。为了加快速度,建议尽量使用api而不是自己写循环或者什么方式去实现。使用这样方法,基本上可以实现简单的算法题,必须栈/链表/树/图等结构的,不包括在内。基本数据保留小数位

2020-09-28 15:43:36 292

原创 python & javascript 定时任务及其资源占用

question一个场景是想要创建一个定时任务,比如每间隔24h执行某种动作。实现(1) 一个方法是linux crontab 定时任务,间隔一段时间去调用py脚本即可。这里不给出例子(2) python对应的定时任务 api 很多,这里写一个比较简单,同时也比较健壮,适合多个场景的:注意1 : import的包有些多余,仅仅用到了pd np 和 time;注意2: 其实我这里是写了个无限递归,即每一次递归里,创建数据帧,7列,随机的2999999行,然后延时3秒调用自己。注意.

2020-09-23 11:23:44 838 2

原创 R LightGBM 安装和使用

LightGBM 在 R上的安装,不太好装,github 上提供的方法我机器装不上,最后我成功的方式是 :1 在 地址 下载 包2 Rtool 以安装包形式安装PKG_URL <- "https://github.com/microsoft/LightGBM/releases/download/v3.0.0/lightgbm-3.0.0-r-cran.tar.gz"remotes::install_url(PKG_URL)library(devtools)opti...

2020-09-08 19:56:59 2519 6

原创 R 如何缓存任意R对象 How to cache R object in R

在 R studio 上运行R代码时,公共区域的变量会存在内存中且可以被全局访问 (私有代码块内的临时变量除外),这和Python很像,和静态语言如JAVA, C 很不一样。R/python进行数据分析过程中,需要刻意用到缓存的场景倒不是很多,一般的公共区域变量全局访问就够用了。但在大一些的项目中,譬如我写了一个提供 动态生成models,计算统计指标,画图等APIs 的R服务器,这时候缓存一下请求结果,就不用每次重新计算了。我尝试自己写个list,用key-value的形式模仿实现Java中的ma

2020-09-07 11:06:25 370

原创 Kaggle Predict Future Sales 竞赛(score 0.899, top 11%)报告

Kaggle Predict Future Sales 竞赛报告唐健 jiantang2000@163.com 2020-07-31摘要Kaggle 上的Predict Future Sales竞赛提供了俄罗斯1C company 近3年来的销售数据,其要求是使用这些数据进行建模,并预测接下来一个月里的每个商店的每种商品的销售量。这篇报告介绍了如何参加这个比赛,给出了一个如何使用R语言进行数据清洗,特征工程抽取,模型构建的全过程。截止到2020/7/31,模型在竞赛中提交了15次,取得的最终分数

2020-07-31 20:35:08 1712

原创 决策树-森林-集成学习

写在前面本文粗略地(不带数学公式)介绍了决策树 & 随机森林 & boosting & bagging 。如它们的原理,之间的关系,适用场景,优缺点等。一个小小的吐槽:我也不太理解树在ML中为什么这么火,相比之下似乎我花了大量的精力在各种复杂的回归模型之中。之前老师讲到 分类 相关内容时,covid-19爆发,也就停课了,只有自学,学的很差。正文1-树树形结构使用决策树决策的过程即从根节点开始,选择一个特征作为当前节点的分裂标准,自上而下生成子节点,直到到达叶子节.

2020-07-23 16:15:15 464

原创 Docker 知识点总结

写在前面其实docker 一直不算陌生,之前工作的时候,经常和docker + K8S打交道。 后来也自己试着在自己虚拟机上安装,打包,运行过docker镜像。但要是被问起一些docker相关的理论,反而没办法回答的很好。这里对其知识点进行了一个总结,涉及到较为 “详细的docker的知识” 和“对K8S的一个非常简短的提及” 。个人以为即使不是专业运维,了解docker 还是很有必要的,k8s则有点麻烦,没那个必要。什么是敏捷开发将大项目分为多个互相关联,可以独立运行的小项目,小项目可分

2020-07-22 18:28:29 406

原创 R语言,GLMM 模型 ,lme4包中的 lmer()的使用

写在前面本文介绍了 R 语言 中, 用 “lme4” 包中的“lmer()”函数 构建 GLMM 模型的一些内容。问题R语言中,构建GLMM 模型时,一个好的选择是使用“lme4” 包中的“lmer()”函数。前些天一个小伙伴问我 :"下面这个模型中,(1|car_type) 是啥意思啊?"lmer(wear~wheel+(1|car_type))我其实一直知道这是一个 "固定部分(wheel) + 随机部分 (car_type)" , 而且它仅仅是 随机截距而 没有随机斜...

2020-07-19 10:14:18 24022 1

原创 mybatis 知识点回顾

写在前面这是一个对 mybatis 部分重要特性 的回顾,“怎么集成mybatis, 简单的配置,SQL的书写”等都是很基础的内容,这里我不涉及。JDBC编程步骤1、 加载数据库驱动2、 创建并获取数据库链接3、 创建jdbc statement对象4、 设置sql语句5、 设置sql语句中的参数(使用preparedStatement)6、 通过statement执行sql并获取结果7、 对sql执行结果进行解析处理8、 释放资源(resultSet、...

2020-06-27 04:50:04 175

原创 Java 会话(session)和 事务

会话(session)和事务的区别一个session可以启动多个事务,session指一次连接。一个session中可以完成多个事务。一个事务 是指一个操作单元,要么成功,要么失败,没有中间状态。会话,在应用程序中连接数据库要执行连接,然后会关闭,这算一次会话。事务呢,就好比在打开会话后要执行程序中的某一个或多个对数据库进行的操作。session怎么创建关闭,及其对性能的影响开启了事务之后,Session会一直占用一个连接,所以一个http请求对应一个Session会降低数据库的并发

2020-06-25 21:18:18 2109

原创 SQL 常见操作汇总

写在前面会涉及到以下内容:改密码,本机SQL developer(windows)连接,删表,Oracle 数据类型介绍,建表,插入(手动+循环)小规模模拟数据,基础简单的SQL。copy 表 +(循环)插入大规模(百万级)数据,基础简单的 SQL again ,效率对比,数据导出成执行脚本 ,数据导入, 换成服务器-客户端请求形式, 基础简单的SQL again, 效率对比 again ,1 Oracle用户名即将失效,或者已经失效。oracle 口令一般默认有效期是180天,过期失效

2020-06-25 07:01:36 720

原创 Classification methods 分类算法 (R)

写在前面介绍了 6 种分类算法, 分别是Linear discriminant analysis (LDA),Quadratic discriminant analysis (QDA),Logistic regression (LR),Support vector machines (SVM),K-nearest neighbour (KNN).为了介绍这五种算法是怎么操作的,我们会使用一个模拟数据的例子,先介绍算法的原理,再使用的R语言搭建模型,再判断模型的拟合程度,再对多个.

2020-06-22 23:32:57 1381

原创 机器学习概念-model fit , Resampling Methods

写在前面机器学习的一些概念,虽然很基础,但多回顾回顾总是没错。会涉及到 监督/非监督学习,常见的model fit (MSE)判断 和 Resampling Methods (CV)监督/非监督学习非监督即 数据中包括 predictors Xi only; 常见的如 clustering (聚类)监督即 数据中包括 predictors Xi 和 Response Yi ;常见的如 回归,分类回归和分类的区别:回归涵盖了Response Yi是 连续的/数值的 情况;分类...

2020-06-22 22:40:05 1021

原创 Bayesian framework 贝叶斯框架 (R)

写在前面本文介绍了贝叶斯定理,贝叶斯回归模型等。贝叶斯公式大家都耳熟能详,高中数学甚至都有涉及,即:用先验概率和条件概率求出另外的条件概率。但贝叶斯回归模型我一直认为是一个非常trick 的内容,我一度觉得这是我的个人问题。用一张图解释本文的内容:一些术语prior : 1 happening or existing before sth else or before a particular time , 2 already existing and therefore...

2020-06-22 21:43:59 8067

原创 Generalised Linear Model (GLM) --2-- 指数家族 和 GLM定义 (R)

指数家族为什么要说指数家族?回顾likelihood,它给出了一种获取模型参数点估计的方法(MLE),模型是一堆PDF/PMF的joint, 而指数家族,就是一些经典常见的PDF/PMF 。简单线性模型假设数据和响应变量之间是正态分布的关系,这个正态分布 就是 指数家族的一员。 GLM在lm的基础上进行扩展, 不再要求 “数据和响应变量之间是正态分布” 的关系, 而是要求 “数据和响应变量之间的关系是指数家族中的某一种”即可。指数家族的公共形式指数家族提供了一种公共形式,只要某种...

2020-06-19 22:38:33 1401

原创 在虚拟机上将 spring-boot + dubbo微服务打包成docker 镜像

写在前面本文给出了一个实操例子: 在虚拟机上,将 spring-boot + dubbo 微服务(两个服务),以及它们依赖的组件 ,如zookeeper, 打包成docker 镜像。同时,本文也对部分操作的动机或原理 进行了简单介绍。如果你对 spring-boot,dubbo 服务, 镜像,仓库,Dockerfile,容器, 简单的shell ,端口 ,IP, 路由,子网 等有了解,那么本文会比较流畅,否者会略有跳跃。前置要求本例子的前置条件(粗略):一台可以访问的 centOS7

2020-06-19 04:08:38 513

原创 Generalised Linear Model (GLM) --1-- likelihood (R)

写在前面介绍了 likelihood,指数家族概率分布的公共形式和性质,GLM的定义,fitting the GLM,Inference in the GLM , GLM的例子,GLM的限制。内容较多,会分成多篇。一些prior基础内容的了解是有必要的:常见概率分布(如正态,泊松,二项,gamma等),基础的高等数学,基础的统计概念,简单线性回归。我的前几篇博文,有说到:xx是GLM的特例,XX是GLM的推广这样的话,GLM确实是我个人较为喜欢和推崇的内容,这里我会尽可能地将它描述清楚。..

2020-06-17 15:38:59 920 1

原创 Smoothers and Generalised Additive Models 广义加性模型 (R)

GAM(Generalised Additive Models)是什么?请对glm有一定了解,否则本文看起来会很跳跃。gam 可以看作是 glm 的扩展,对于真实世界的数据,可能是更加光滑,在不同阶段有不同光滑程度 的曲线,而不是简单的线性模型。为了应付这种 模型中更光滑部分 (smoother)的需求,我们引入 ”加性模型“, 譬如 我们使用了 更高的次幂 ,但这个法子有 undesirable properties,于是我们引入了 splines + knots 结构 的加性模型 。这个...

2020-06-17 00:03:10 974

原创 Logisic regression and classification 逻辑回归 和 分类 (R/python )

Logisic regressionLogistic回归是基于一个或多个预测变量(x)预测个体的类别(或类别),用于建模一个二元结果,即一个变量,它只能有两个可能的值:0或1、是或否、患病或不患病。Logistic回归属于GLM族,它不直接返回观测的类别。它允许我们估计类成员的概率(p)。概率范围在0到1之间。我们需要确定类别从一个类别到另一个类别的阈值概率。默认情况下,这个值设置为p = 0.5,但实际上应该根据分析目的来确定。如果你对GLM很熟悉,那 LR 仅仅是 GLM 指数家族中Bin.

2020-06-16 23:37:05 583

原创 Multiple Linear Regressions 多元线性回归 (R)

多元回归多元回归是线性回归模型的自然延伸。它用于从几个解释变量预测响应的值。每个解释变量都有自己的系数。响应变量由所有变量乘以各自系数的组合来预测。其基本原理与简单回归相同:我们寻求预测因子的线性组合,以最小化与结果变量的差异。the parallel slopes model 平行斜率模型数据展示当我们遇到两个 变量的场景,其中一个是 数字型变量(温度),其中一个是 分类型变量(是否是周末),我们定义了下面这样的模型:X1 是“温度”,X2是 “是否是周末”..

2020-06-16 23:19:40 2641

原创 Simple Linear Regressions 简单线性回归 (R)

写在前面这篇文章不是告诉‘不知道什么是线性模型的人’线性模型是什么,你可以自行Google。它是在对线性模型有一定了解的基础上的一个细节探索。我一开始也觉得lm没什么,挺简单的,但后来我越来越觉得并非如此...用GLM表示普通线性模型如果你不知道GLM,可以跳过这一小节说lm是GLM的一个特例, 我也更喜欢用GLM的形式描述什么是 “线性模型 ”(Normal theory linear model),也就是这样的:看起来非常清晰。当然,如果你不知道GLM,可以跳过这一小节。

2020-06-16 22:16:29 1157

原创 主成分分析 PCA (Principal components analysis)& 图像压缩 Image Compression (R)

写在前面本文介绍了PCA原理,以及 R语言实现PCA 的两个例子 ,一个是对非常有名的 iris 数据,一个是使用PCA实现图片压缩主成分分析主成分分析(英语:Principal components analysis,PCA)是一种统计分析、简化数据集的方法。它利用正交变换来对一系列可能相关的变量的观测值进行线性变换,从而投影为一系列线性不相关变量 (在线性代数里,矢量空间的一组元素中,若没有矢量可用有限个其他矢量的线性组合所表示,则称为线性无关或线性独立 (linearly independ

2020-06-16 21:03:58 1514

原创 层级模型 Generalised linear mixed models / Hierarchical modelling (R/python)

写在前面:Generalised linear mixed models (GLMMs)(Hierarchical Models)简单点说就是GLM的变形,如果你对GLM很熟,那你可以回想一下GLM的数学形式,然后在GLM 的线性部分(fixed paramters) 加了一个 “遵循正态分布 的随机部分”(random effects ),这个随即部分的 均值位0 ,方差 为某个值,这就是 GLMMs这篇文章里只是一个简单的介绍,我不会细写其数学形式,也许在写了GLM之后我会补上。...

2020-06-15 19:01:22 2050

原创 聚类 Hierarchical and K-means Clustering (R/python)

what is Clustering?聚类是一种统计技术,它适用于非监督学习,在数据中创建分组;与不同集群中的对象相比,同一集群中的对象之间的相似性更大;应用场景:客户偏好 基因功能预测 个体化用药 ......Hierarchical Clustering (分层/层次聚类)分层聚类首先将每个观测数据放到单独的集群中。 它检查了所有观测值之间的所有距离 (这个距离可以由不同的算法计算出来,比如欧里几何距离和曼哈顿距离),并将两个最近的观测值配对,形成一个新簇团。 这个过程.

2020-06-15 18:41:25 1054

原创 可视化 Visualisation 总结 (R/python)

写在前面:“R is very powerful in data analysis and visualization”整个 master 的学习,在数据分析时基于用的R和python,这里小小的总结了一些 R 的可视化,给出每部分的例子,部分词语方便起见用的英文,emmm.Visualisation:bar charts to display frequencies for qualitative (定性的)variables ,一般用来辅助理解数据。 pie charts to di.

2020-06-15 18:17:34 1490

原创 基于Spring boot + Oracle +Vue + Element UI 的 电商网站

写在前面:这是一个简单的电商网站。部署和访问形式:部署在Google Cloud上,静态IP,没买域名,是一个 web网站 ,手机/电脑输入 访问地址(http://35.189.127.74:8010) 即可访问。值得注意的是这个网站也许只撑到 2020/09 ,然后我的Google 账户 的钱应该就 耗光了。功能:普通使用者:游客免登录,注册账号,以账号方式登录,修改资料,预览商品(文字,图片),搜索,加入购物车,编辑购物车,选择运送时间地点并check out 购物车(等待商家确认

2020-06-15 17:53:26 838

原创 一个基于PMML的用于开发R-Java分析应用程序的框架

写在前面这是一个关于“用于开发R-Java分析应用程序的基于PMML的框架”的文章。我写的时候就用的英文,英文也算很易懂,但有时间我也许会再写一个中文版本。A PMML Based Framework for Developing R-Java Analytic Applications JianTangAbstractThe process of building R-Java analytic applications presents challenges such as ..

2020-06-14 01:58:16 185

源数据和代码文件.zip

Python3智能数据分析快速入门系列博客对应的所有源数据和代码文件。 是一个.zip文件,无密码解压开后是多个按章节分的文件夹,每个文件夹内包含章节对应的源数据和.py代码文件

2019-08-26

github项目链接,自写的一个小项目,纯粹的练手。设个槛防暴露,觉得练手还不错的可以git上点个赞

github 链接。一个分布式项目 ,maven +Spring + dubbo + mybatis,包含日志,同步消息传输,持续更新中,会持续更新 异步消息通信,分布式缓存,进程内缓存,定时/手动任务等等内容

2018-10-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除