NLP实战项目
愚昧之山绝望之谷开悟之坡
人工智能智慧城市元宇宙pf,无无明亦无无明尽
展开
-
Tesla服务器对比
单纯从T4和V100的角度来说,V100是定位在绝对的性能要求比较高的场景,比如对训练端、学习端,对计算速度有绝对的要求,或是推理端,对推理有绝对的速度要求,再或者以单精度或双精度为主的绝对计算都有要求,这是V100的定位;T4定位主要面向推理端,刚才我们看到有一个很好的性能提升,在75W功耗下,T4在计算性能上有两倍多的提升并且能耗不变,所以T4可以很好的用在其他场景做一些推理或入门级的训练,单精度要求的一些场景,或是渲染VDI都有不错的表现。多维度对比V100服务器和T4服务器的性能指标及各自有缺点?原创 2023-03-14 19:49:19 · 399 阅读 · 0 评论 -
为什么要使用多GPU并行训练,单卡和多卡训练,bs和lr的关系
众所周知,learning rate的设置应和batch_size的设置成正比,即所谓的线性缩放原则(linear scaling rule)。简单来说,有两种原因:第一种是模型在一块GPU上放不下,两块或多块GPU上就能运行完整的模型(如早期的AlexNet)。1.模型并行方式:如果模型特别大,GPU显存不够,无法将一个显存放在GPU上,需要把网络的不同模块放在不同GPU上,这样可以训练比较大的网络。2.数据并行方式:将整个模型放在一块GPU里,再复制到每一块GPU上,同时进行正向传播和反向误差传播。原创 2023-02-10 16:46:52 · 1585 阅读 · 0 评论 -
python如何将网络上的图片url和base64编码的图片保存在本地
当项目里使用到PIL的时候,需要结合io.BytesIO()将图片流写入文件。它是用来操作二进制数据的,图片就是二进制数据了,和它相对的自然是StringIO,这是用来存str的。他们的区别就好似python读写普通文件和二进制文件。之前写爬虫大多是爬网页中的url,然后将url保存下来就可以了,倒还没有想过要获取真的图片到本地。方法一:使用urllib.urlretrieve()原创 2023-01-06 15:18:03 · 1608 阅读 · 0 评论 -
falsk-restful代码通过swagger一键生成接口文档
flask swagger github地址:原创 2023-01-05 11:16:47 · 215 阅读 · 0 评论 -
智慧城市-智慧城管系列-2.1-人流统计-PaddleDetection
https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.5/deploy/pipeline/docs/tutorials/pphuman_mot.md安装1.2 视频追踪1.3 人流统计1.3.1 人流统计,自定义统计区域2 在线人流统计测试:目前是支持rstp单路视频流的输入:https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.5/deploy原创 2022-12-13 21:49:33 · 186 阅读 · 0 评论 -
智慧城市-智慧城管系列-2-人流统计-PaddleDetection
系列视频教程:https://aistudio.baidu.com/aistudio/education/group/info/23670gitee:https://gitee.com/AI-Mart/PaddleDetection/tree/release%2F2.5/guthuib: https://github.com/PaddlePaddle/PaddleDetection人流统计aistudio:https://aistudio.baidu.com/aistudio/projectdetail原创 2022-12-09 14:42:43 · 563 阅读 · 0 评论 -
智慧城市-疫情流调系列4-GlobalPointer
GlobalPointer下的“KL散度”应该是怎样的?原创 2022-11-25 19:49:01 · 538 阅读 · 0 评论 -
预训练模型相对位置编码和绝对位置编码的通俗理解
上图中以第5个位置(索引为4)的单词为中心,那么其左边的单词的编号为:-1,-2,-3,-4,右边的单词的编号为:+1,+2,+3,+4。对于第一个位置的单词“I”,当transformer计算“I”跟“therefore”的attention信息时候,"therefore"会采用第6个位置编码,因为我们是以第4个索引为中心,“therefore”是位于“I”的右边相对于“I”的相对距离为2,所以其采用的是第6个embedding向量。1.作者认为超出范围的位置还采用精准的位置编码时没必要的。原创 2022-11-22 21:13:09 · 849 阅读 · 0 评论 -
智慧城市-疫情流调系列2.1-Prompt-UIE信息抽取,解决抽取结果不准的问题
单条样本为空的也标注出来,不交叉构造负样本,以免引入额外噪音。原创 2022-11-17 13:00:47 · 315 阅读 · 0 评论 -
智慧城市-疫情流调系列4-Prompt-UIE,生成式通用信息抽取-paddlenlp
本次评测将提供基于飞桨框架PaddlePaddle的开源基线系统,提供丰富的高层API,从开发、训练到预测部署提供优质的整体体验。推荐您参照基线方案,进行二次开发、模型调优和方案创新。同时,我们在AI studio上提供了免费的算力支持、编程环境和基线系统,选手可『一键运行』跑出结果。原创 2022-11-08 21:54:15 · 866 阅读 · 1 评论 -
智慧城市-疫情流调系列3-Prompt-UIE,生成式通用信息抽取
事件抽取的目标是对于给定的自然语言句子,根据预先指定的事件类型和论元角色,识别句子中所有目标事件类型的事件,并根据相应的论元角色集合抽取事件所对应的论元。其中目标事件类型 (event_type) 和论元角色 (role) 限定了抽取的范围,例如 (event_type:胜负,role:时间,胜者,败者,赛事名称)、(event_type:夺冠,role:夺冠事件,夺冠赛事,冠军)。具体来讲,本实践将抽取出的评论属性和评论观点进行拼接,然后和原始语句进行拼接作为一条独立的训练语句。原创 2022-10-28 16:38:45 · 1093 阅读 · 0 评论 -
智慧城市-疫情流调系列2-Prompt-UIE信息抽取
智慧城市-疫情流调系列1-Prompt-UIE信息抽取原创 2022-09-28 10:17:05 · 1137 阅读 · 4 评论 -
智慧城市-疫情流调系列1-Prompt-文本分类
智慧城市-疫情流调系列1-Prompt-文本分类原创 2022-09-24 20:48:22 · 1057 阅读 · 0 评论 -
语义检索做文本分类,传统分类,Label Embedding,Multi-Task Label Embedding for Text Classification
我们事先对label做一个转文本的处理,然后把文本转换成对应的embedding,如果你的类别很难表示成文本信息,那么你可以直接把类别乘一个embedding matrix得到embedding,然后把label embedding与每一个token的embedding做类attention处理得到权重,再对token embedding进行加权求和得到最终的句子embedding。预测阶段和普通的方法略有不同,需要把所有label的embedding都计算一遍,最后判断哪个结果最大就属于哪一个类别。原创 2022-09-22 11:58:35 · 476 阅读 · 0 评论 -
gunicorn日志系列4-flask接口入参出参日志,合并到gunicorn的日志文件error.log,并且打印到控制台,方便定位接口问题
looger就是个对象,类比一个主要人物,其他配合的人包括输出格式控制、输出大小和目的地控制(控制台,文件,邮箱),过滤控制等等。原创 2022-09-20 17:03:59 · 416 阅读 · 0 评论 -
gunicorn日志系列3-flask接口入参出参日志,合并到gunicorn的日志文件error.log,方便定位接口问题
核心是用gunicorn里面配置好的对象,去其他文件打印,就会自动映射,gunicorn_logger = logging.getLogger(‘gunicorn.error’)原创 2022-09-20 16:21:26 · 331 阅读 · 0 评论 -
gunicorn日志系列2-日志格式配置,docker logs 控制台,输出接口入参,出参详细信息
【代码】gunicorn日志系列2-日志格式配置,输出接口入参,出参详细信息。原创 2022-09-19 20:03:14 · 1841 阅读 · 0 评论 -
Android和ios模型部署
iOS是基于UNIX内核,Android是基于Linux内核,iOS和android作为两款优秀的手机操作系统,他们有共性有区别。原创 2022-09-14 21:48:06 · 1260 阅读 · 0 评论 -
七、OCR-PaddlePaddle训练源码解析系列-文字识别
我们可以发现,对于第二类任务,最理想的情况是将源序列先进行分割,这样单独的对某一个音节,手语或者字符进行识别,准确率就会很高了。针对这类任务,[Alex Graves, 2006] 提出了Connectionist Temporal Classification.使用ctc进行训练有两个要求:源序列长度 >> 目标序列长度源序列的order与目标序列的order一致,且存在顺序对齐的关系。损失函数决定了整体的方向,决定了数据的构造方式以及模型的搭建方式,为何选择这样的损失函数,是背后的原理和规律。原创 2022-09-14 17:46:59 · 915 阅读 · 0 评论 -
六、OCR-PaddlePaddle训练源码解析系列-文本方向分类器
github地址: https://github.com//PaddleOCR/blob/dygraph/doc/doc_ch/angle_class.md原创 2022-09-14 14:12:23 · 562 阅读 · 0 评论 -
五、OCR-PaddlePaddle训练源码解析系列-文字检测
代表后面的是列表,列表里面的元素可以是字典,也可以是值本身。原创 2022-09-11 22:18:31 · 1407 阅读 · 0 评论 -
人脸识别9-FastDeploy人脸检测、识别、部署
人脸识别原创 2022-09-09 18:51:00 · 2711 阅读 · 1 评论 -
人脸识别5.1.3- insightface人脸识别模型arcface-Paddle
n的矩阵,然后对于W的每一列(代表每一类的center)进行Normalization,两个都标准化以后,当它们的模为1的时候,W和X做矩阵相乘得到全连接层的输出,就是cosθ的值(严格讲是||xi/(||xi||)||*||Wj/(||Wj||)||*cosθj,因为前面两项都是1,所以就是cosθj)。其中,特征提取作为人脸识别最关键的步骤,提取到的特征更偏向于该人脸独有的特征,对于特征匹配起到举足轻重的作用,而我们的网络和模型承担着提取特征的重任,优秀的网络和训练策略使得模型更加健壮。原创 2022-09-07 16:37:54 · 1570 阅读 · 0 评论 -
人脸识别5.1.2- insightface人脸检测模型RetinaFace-Paddle
iter。原创 2022-09-06 17:24:20 · 1874 阅读 · 0 评论 -
人脸识别5.1.1- insightface人脸检测模型blazeface_paddle
由于BlazeFace是谷歌的工作。原创 2022-09-04 21:28:15 · 812 阅读 · 0 评论 -
python如何获取一个视频的帧率_python-使用OpenCV计算视频文件中的帧数?
【代码】python如何获取一个视频的帧率_python-使用OpenCV计算视频文件中的帧数?原创 2022-08-30 14:18:50 · 2154 阅读 · 0 评论 -
JMeter系列4-使用JMeter进行压力测试,计算吞吐量
这个定时器保证了吞吐量为预设的吞吐量,与之前不设置相比,可以保证并发更接近为设置的值,从而计算起QPS更加准确。预计平均响应时间(如200ms)可以计算出每个线程每秒的查询次数为5 所以循环次数为: 5。如预计平均响应时间(如200ms)可以计算出每个线程每秒的查询次数为5。2.目标吞吐量:50(个线程)*5 *60s = 15000。逐步增加线程,直到满足响应时间的最大线程数。目标吞吐量与基于计算吞吐量为一对出现。基于计算吞吐量:所有活动线程。基于计算吞吐量:只有此线程。其中50为预设的线程,......原创 2022-08-29 16:54:40 · 5460 阅读 · 0 评论 -
JMeter系列3-使用JMeter进行压力测试
jemeter 压力测试原创 2022-08-29 16:18:39 · 108 阅读 · 0 评论 -
JMeter系列2-使用JMeter进行压力测试
url测试原创 2022-08-29 16:17:53 · 71 阅读 · 0 评论 -
docker限制输出到根目录的日志大小,防止占用空间过多导致复位
官方文档:https://docs.docker.com/config/containers/logging/configure/k8s的容器存储空间资源限制ephemeral-storage:https://blog.csdn.net/sdmei/article/details/101017405kubernetes-issue-1:ephemeral-storage引发的pod驱逐问题:https://cloud.tencent.com/developer/article/1456389?from=15原创 2022-08-29 09:44:01 · 523 阅读 · 0 评论 -
人脸识别5.4- insightface安装包预测源码,整体阅读分析和调试
2.与所定义的属性配合使用,这样可以防止属性被修改。,表示类的类型,返回;1.修饰方法,是方法可以像属性一样访问。的属性,表示实例对象的类。__class__是。原创 2022-08-26 19:05:17 · 637 阅读 · 0 评论 -
gunicorn开启gevent模式,启动服务的时候报超时错误,服务起不来
已经说过很多次不要尝试在主工作进程(或 gevent)中运行 pytorch 或其他阻塞进程。如果您需要运行阻塞进程,请将其作为单独的守护进程运行并使用 unix sockets 与之对话。Asyncio 也不会在那里改变任何东西。简而言之:从 gunicorn 请求开始该过程,并让您的客户端不时轮询系统或以畅通无阻的方式等待它。...原创 2022-08-25 16:57:39 · 1178 阅读 · 0 评论 -
gunicorn 支持如下4种工作模式,Gunicorn“绿色独角兽”
worker model”意味着:这个模型有一个master进程,来管理一组worker进程;“fork”意味着:worker进程是由master进程fork(复刻)出来的;“pre-”意味着:在任何客户端请求到来之前,就已从master进程fork出了多个worker进程,坐等请求到来。在worker进程创建时,就被实例化了Python web app;并由worker进程监听端口、处理请求。原创 2022-08-25 15:08:05 · 1972 阅读 · 0 评论 -
什么是CPU密集型、IO密集型?什么是多进程与线程和协程?并行与并发?
【联系】:线程与进程的联系1.一个线程只能属于一个进程,而一个进程可以有多个线程,但至少有一个线程;2.资源分配给进程,同一进程的所有线程共享该进程的所有资源;3.处理机分给线程,即真正在处理机上运行的是线程;4.线程在执行过程中,需要协作同步。不同进程的线程间要利用消息通信的办法实现同步。操作系统的设计,因此可以归结为三点:(1)以多进程形式,允许多个任务同时运行;(2)以多线程形式,允许单个任务分成不同的部分运行;原创 2022-08-25 11:14:47 · 2406 阅读 · 0 评论 -
人脸识别5.3- insightface人脸3d关键点检测源码更改,根据姿态角修正图片角度,调整向量解析值,增大识别准确度,以及返回俯仰角,偏航角,旋转角
人脸识别5.3- insightface人脸3d关键点检测源码更改,根据姿态角修正图片角度,调整向量解析值,增大识别准确度原创 2022-08-24 15:58:11 · 1424 阅读 · 0 评论 -
opencv官方文档:图像任意角度的旋转,图像的读取和存储
【代码】opencv官方文档:图像任意角度的旋转,图像的读取和存储。原创 2022-08-23 15:20:56 · 494 阅读 · 0 评论 -
人脸识别5.2- insightface人脸3d关键点检测,人脸68个特征点、106个特征点;人脸姿态角Pitch、Yaw、Roll、
姿态角分为Pitch、Yaw、Roll,用于表示人脸在空间三维坐标系内的角度,常用于判断识别角度的界限值。各角度阈值如下:Pitch:三维旋转之俯仰角度,范围:[-90(上), 90(下)],推荐俯仰角绝对值不大于20度;Yaw:三维旋转之左右旋转角,范围:[-90(左), 90(右)],推荐旋转角绝对值不大于20度;Roll:平面内旋转角,范围:[-180(逆时针), 180(顺时针)],推荐旋转角绝对值不大于20度;原创 2022-08-23 10:46:56 · 9156 阅读 · 4 评论 -
gunicorn日志系列1-输出限制大小的问题 Unable to configure root logger: Unable to add handler ‘console‘: ‘console‘
【代码】gunicorn日志输出限制大小的问题。原创 2022-08-22 15:56:23 · 1103 阅读 · 0 评论 -
人脸识别8-opencv笔记
opencv论坛:opencv api文档:Doxygen编程辅助工具。原创 2022-08-19 23:19:18 · 425 阅读 · 0 评论 -
如何利用python读取图片属性信息
【代码】如何利用python读取图片属性信息。原创 2022-08-19 23:14:08 · 293 阅读 · 0 评论