农作物地块范围识别(图像分割) 向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx农作物的资产盘点与精准产量预测是实现农业精细化管理的核心环节。当前,我国正处于传统农业向现代农业的加速转型期,伴随着农业的转型升级,政府宏观决策、社会各界对农业数据的需求不断增加,现有农业统计信息的时效性与质量,已不足以为市场各主体的有效决策提供科学依据。在农作物资产盘点方面,传统的人工实...
GitHub 3.1K,业界首个流式语音合成系统开源! 智能语音技术已经在生活中随处可见,常见的智能应用助手、语音播报、近年来火热的虚拟数字人,这些都有着智能语音技术的身影。智能语音是由语音识别,语音合成,自然语言处理等诸多技术组成的综合型技术,对开发者要求高,一直是企业应用的难点。飞桨语音模型库 PaddleSpeech ,为开发者提供了语音识别、语音合成、声纹识别、声音分类等多种语音处理能力,代码全部开源,各类服务一键部署...
使用sklearn的cross_val_score进行交叉验证 向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx在构建模型时,调参是极为重要的一个步骤,因为只有选择最佳的参数才能构建一个最优的模型。但是应该如何确定参数的值呢?所以这里记录一下选择参数的方法,以便后期复习以及分享。(除了贝叶斯优化等方法)其它简单的验证有两种方法:1、通过经常使用某个模型的经验和高超的数学知识。2、通过交叉验证的方法,...
视觉分类任务中处理不平衡问题的loss比较 向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx在计算机视觉(CV)任务里常常会碰到类别不平衡的问题, 例如:1. 图片分类任务,有的类别图片多,有的类别图片少2. 检测任务。现在的检测方法如SSD和RCNN系列,都使用anchor机制。训练时正负anchor的比例很悬殊.3. 分割任务, 背景像素数量通常远大于前景像素。从实质上来讲,...
深度学习TabNet能否超越GBDT? 向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx随着深度神经网络的不断发展,DNN在图像、文本和语音等类型的数据上都有了广泛的应用,然而对于同样非常常见的一种数据——表格数据,DNN却似乎并没有取得像它在其他领域那么大的成功。参加过Kaggle等数据挖掘竞赛的同学应该都知道,对于采用表格数据的任务,基本都是决策树模型的主场,像XGBoo...
基于PyTorch的卷积神经网络经典BackBone(骨干网络)复现 向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx前言卷积神经网络的发展,从上个世纪就已经开始了,让时间回到1998年, 在当时,Yann LeCun 教授提出了一种较为成熟的卷积神经网络架构LeNet-5,现在被誉为卷积神经网络的“HelloWorld”,但由于当时计算机算力的局限性以及支持向量机(核学习方法)的兴起,CNN方法并不是当...
一个迅速崛起的国产开源OCR项目 导 读OCR方向的工程师,之前一定听说过PaddleOCR这个项目,累计Star数量已超过20000+,频频登上GitHubTrending和Paperswithcode日榜月榜第一,在Medium与Papers with Code 联合评选的《Top Trending Libraries of 2021》,从百万量级项目中脱颖而出,荣登Top10!在《2021中国开...
表格识别方法综述 向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx表格是各类文档中常见的对象,其结构化的组织形式方便人们进行信息理解和提取。表格的种类根据有无边框可以划分有线表、少线表、无线表。表格样式复杂多样,如存在背景填充、光照阴影、单元格行列合并等情况。大数据时代存在大量电子文档,应用表格识别技术能够减少表格处理时间,因此表格识别是文档理解领域的重...
DBNet文本目标检测,带多分类 向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx之前一直思考如果DBnet文本检测网络能够加入多分类的话,就可以实现模型很小又能够区分类别的功能,在端侧部署的话就能达到非常高的精度和效率。在参考了大佬的pytorch版的DBnet多分类功能,在此实现Paddle版的DBnet多分类文本检测网络。比如中英文分类检测按照标签名称分类检测模型...
BERT+Biaffine结构中文NLP地址要素解析 向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx人类的活动离不开位置,从空间上可以表征为坐标,从文本上表征为通讯地址。通讯地址广泛存在于电商物流、政府登记、金融交通等领域。对通讯地址的分析、聚合服务已经是一项重要基础服务,支撑着诸多互联网场景,比如地图搜索、电商物流分析等。实际应用中,地址文本存在写法自由、缺省别名多、地域性强等特点,对...
PyTorch 跟着学就可以了,真爽! 总有人在后台问我,如今 TensorFlow 和 PyTorch 两个深度学习框架,哪个更流行?问了一圈,今年面试的实习生,被问到常用的深度学习框架时,他们清一色的选择了「PyTorch」。这并不难理解,这两年,PyTorch 框架凭借着对初学者的友好性、灵活性,发展迅猛,几乎占据了深度学习领域的半壁江山。比起 TF 的框架环境配置不兼容,和 Keras 由于高度封装造成...
基于CNN实现对摄像头捕捉的人脸进行性别和年龄的预测 向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx实现思路数据处理原始数据来源于https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/static/wiki_crop.tar原始数据集包含的图片数量很多,我从中筛选了大约10000张图片(筛选条件为:由OpenCV识别出的face数目为1...
车辆贷款违约预测 Top1(2021科大讯飞) 向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx随着监管政策步入关键落地期,受合规监管标的限额影响,曾备受追捧的大额标的逐渐消失,小额分散的车贷业务成为网贷平台转型的主要方向之一。车贷资产由于进入门槛低、借款额度低、流动性高、限期短等优点,但做好风险防控依然是行业的主要问题之一。国内某贷款机构就面临了这样的难题,该机构的借款人往往拖欠还...
基于深度学习检测驾驶员的走神行为 向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx项目背景我们经常遇到这样的场景:一盏灯变成绿色,你面前的车不走。另外,在没有任何意外发生的情况下,前面的车辆突然减速,或者转弯变道。等等这些现象,给道路安全带来了很大的影响。那么造成这样现象的原因是什么,主要有因为司机疲劳驾驶,或者走神去做其他事情,想象身边的例子,开车时候犯困,开始时候打...
Transformer、BERT细节基础知识点 向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx下面尝试用QA的形式深入不浅出BERT/Transformer的细节知识点。1、不考虑多头的原因,self-attention中词向量不乘QKV参数矩阵,会有什么问题?Self-Attention的核心是用文本中的其它词来增强目标词的语义表示,从而更好的利用上下文的信息。self-atte...
文本数据标注工具doccano【介绍最详细的一遍文章】 向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayxdoccano是一个开源文本标注工具。它提供了文本分类,序列标注和序列到序列的标注功能。因此,您可以为情绪分析,命名实体识别,文本摘要等创建标记数据。只需创建项目,上传数据并开始标注。总结下来就3步,上传数据,标注,下载带有标签的数据。官网:http://doccano.herokuapp...
opencv如何读取仪表中的指针刻度 向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx最近遇到一个问题,如何读取仪表中的指针指向的刻度解决方法有多种,比如,方案一:模板匹配+边缘检测+霍夫直线检测,方案二:神将网络(CNN)目标定位等,其中CNN就有点麻烦了,需要一定数量的训练样本,太麻烦,而方案一太普通,最后我采用了方案三,方案三:模板匹配+k-means+直线拟合具体...
海量图片去重算法-局部分块Hash算法 向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx本文主要调研了一下海量图片(>1000000张)去重的方法,在调研之前,先考虑一下自己能想到的方法的可行性。文献发表:《基于pHash分块局部探测的海量图像查重算法》https://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFD&am...
一款AI编程助手,阿里云智能编码插件 向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx代码智能补全阿里云智能编码插件https://github.com/alibaba-cloud-toolkit/cosy基于领先的深度学习模型,为你提供准确的行级代码智能补全,让编码如行云流水般自然和高效。其拥有以下三大特点:补全效率高:本插件基于深度学习模型,结合海量开源代码数据和代码上...
NLP关键词提取方法总结及实现 向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx一、关键词提取概述关键词是能够表达文档中心内容的词语,常用于计算机系统标引论文内容特征、信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支,是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作。从算法的角度来看,关键词提取算法主要有两类:无监督关键词提取...