hanranV
码龄9年
关注
提问 私信
  • 博客:1,158,360
    社区:75
    1,158,435
    总访问量
  • 66
    原创
  • 1,948,737
    排名
  • 295
    粉丝
  • 学习成就

个人简介:一分耕耘,一分收获~

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:四川省
  • 加入CSDN时间: 2015-07-21
博客简介:

Eddy_zheng的博客

博客描述:
一分耕耘,一分收获...
查看详细资料
  • 原力等级
    成就
    当前等级
    3
    当前总分
    389
    当月
    0
个人成就
  • 获得338次点赞
  • 内容获得136次评论
  • 获得808次收藏
  • 代码片获得755次分享
创作历程
  • 9篇
    2023年
  • 1篇
    2022年
  • 2篇
    2021年
  • 1篇
    2020年
  • 3篇
    2019年
  • 6篇
    2017年
  • 23篇
    2016年
  • 22篇
    2015年
成就勋章
TA的专栏
  • 论文阅读
    9篇
  • 机器翻译-快速构建英中翻译模型
    1篇
  • Kubelow——机器学习自动化
    1篇
  • 算法一步一回首
  • 机器学习
    4篇
  • 深度学习
    13篇
  • python
    14篇
  • 计算机视觉
    3篇
  • 概率论与数理统计
    1篇
  • opencv for python
    1篇
  • 验证码识别项目
    1篇
  • sqlite3
    1篇
  • django
  • 面试题
    1篇
  • Vision
    2篇
  • Kinect 开发
    2篇
  • MySQL
    2篇
  • MAC 管理
    3篇
  • Linux
  • Docker
    3篇
  • 深度学习环境
    1篇
兴趣领域 设置
  • 人工智能
    opencv语音识别计算机视觉机器学习深度学习神经网络自然语言处理tensorflowpytorchnlp数据分析
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Sequential Modeling Enables Scalable Learning for Large Vision Models

本文提出了一种新颖的顺序建模方法,可以在不使用任何语言数据的情况下学习大型视觉模型(LVM)。为此,我们定义了一种通用格式,“视觉句子”,在这种格式中,我们可以表示原始图像和视频以及带注释的数据源,如语义分割和深度重建,而无需超出像素之外的元知识。一旦这种广泛的视觉数据(包含(420)亿个tokens)被表示为序列,就可以训练模型以最小化下一个token预测的交叉熵损失。通过在不同规模的模型架构和数据多样性上进行训练,我们提供了实证证据,表明我们的模型可以有效地扩展。
原创
发布博客 2023.12.04 ·
1281 阅读 ·
0 点赞 ·
0 评论 ·
15 收藏

EUREKA: HUMAN-LEVEL REWARD DESIGN VIACODING LARGE LANGUAGE MODELS

大型语言模型(LLMs)在顺序决策任务中作为高级语义规划器表现出色。然而,利用它们来学习复杂的低级操控任务,例如灵巧的笔旋转,仍然是一个未解决的问题。我们弥补了这一基本差距,并提出了Eureka,这是一个由LLMs驱动的人类水平奖励设计算法。Eureka利用了最新LLMs的卓越能力,如零样本生成、代码编写和上下文中的改进,来执行奖励代码的进化优化。生成的奖励可以通过强化学习用于获取复杂技能。Eureka在没有任何特定任务提示或预定义奖励模板的情况下,生成了优于专家人工设计奖励的奖励函数。
原创
发布博客 2023.11.30 ·
650 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Visual Cropping Improves Zero-Shot QuestionAnswering of Multimodal Large Language Models

多模态大型语言模型(LLMs)最近在视觉问答(VQA)方面取得了令人鼓舞的零射击准确率,这是影响各种下游应用和领域的基本任务。鉴于这些模型广泛使用的巨大潜力,重要的是调查它们在处理不同图像和问题属性方面的限制。在这项工作中,我们研究了多模态LLMs是否能够感知图像中的小细节以及大细节。具体而言,我们展示了它们在回答视觉问题的零射击准确率对问题的视觉主题大小非常敏感,随着大小的增加下降了高达(46%)。此外,我们通过观察到人类的视觉裁剪可以显著减轻它们对大小的敏感性,证明了这种影响是因果关系的。
原创
发布博客 2023.11.30 ·
181 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Large Language Models areVisual Reasoning Coordinators

视觉推理需要多模态感知和对世界的常识性认知。最近,提出了多种视觉-语言模型(VLMs),在各个领域展现了出色的常识性推理能力。然而,如何利用这些互补的 VLMs 的集体力量很少被探索。现有的方法如集成,仍然难以实现这些模型之间所需的高阶通信聚合。在这项工作中,我们提出了 Cola,一种协调多个 VLMs 进行视觉推理的新范式。我们的关键洞察是,一个大型语言模型(LLM)可以通过促进利用它们不同且互补能力的自然语言通信,有效地协调多个 VLMs。
原创
发布博客 2023.11.30 ·
710 阅读 ·
3 点赞 ·
0 评论 ·
1 收藏

Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering

最近,视觉语言模型(VLMs)受到了显著的关注,在各种任务中展现了显著的进步,这些进步是通过利用大量的图像-文本配对数据实现的。然而,现有的 VLMs 通常将视觉问答(VQA)视为感知任务,采用黑盒模型处理,忽视了对同一视觉场景中不同问题之间关系的显式建模。此外,依赖于知识库(KBs)的现有 VQA 方法可能经常遇到来自有限数据的偏见,并在相关信息索引方面面临挑战。
原创
发布博客 2023.11.30 ·
123 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Fully Authentic Visual Question Answering Dataset from Online Communities

视觉问答(VQA)是指关于图像的问题的回答。我们介绍了第一个VQA数据集,其中所有内容都来自真实用例。这个数据集源自在线问答社区论坛,我们称之为VQAonline。我们接着描述了我们的数据集以及它与其他八个VQA数据集的关系。观察到我们数据集中的答案往往更长(例如平均173个词),因此与标准VQA评估指标不兼容,我们接下来分析了六种流行的长文本评估指标中哪些与人类判断最吻合。然后,我们使用最适合的指标来评估六种最先进的视觉与语言基础模型在VQAonline上的表现,并揭示它们最大的挑战所在。
原创
发布博客 2023.11.29 ·
128 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Grounding Answers for Visual Questions Asked by Visually Impaired People

这篇论文的标题是“Grounding Answers for Visual Questions Asked by Visually Impaired People”,作者是Chongyan Chen, Samreen Anjum, 和 Danna Gurari。论文的重点是在视觉问答(VQA)的领域内,引入了一个新的数据集:VizWiz-VQA-Grounding,这是第一个针对视障人士提出的视觉问题,并在视觉上定位答案的数据集。
原创
发布博客 2023.11.27 ·
160 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Weakly Supervised Visual Question Answer Generation

这篇论文提出了一种弱监督的视觉问题答案生成方法,主要研究在对话智能助手和视觉问答(VQA)领域的应用。
原创
发布博客 2023.11.21 ·
143 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

LOIS: Looking Out of Instance Semanticsfor Visual Question Answering

视觉问答(VQA)作为一种需要在视觉和语言之间架起桥梁以正确推断答案的多模态任务,已被密集研究。最近的尝试开发了各种基于注意力的模块来解决VQA任务。然而,模型推理的性能在很大程度上受限于用于语义理解的视觉处理。大多数现有的检测方法依赖于边界框,这对VQA模型来说仍然是一个严峻的挑战,即理解图像中物体语义的因果关系并正确推断上下文信息。为此,我们在这项工作中提出了一个不使用边界框的更精细的模型框架,称为“实例外语义观察”(LOIS),以解决这一重要问题。LOIS能够提供更细粒度的特征描述来产生视觉事实。
原创
发布博客 2023.11.21 ·
109 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

OCID-Ref: A 3D Robotic Dataset with Embodied Language for Clutter Scene Grounding

为了在工作环境中有效地应用机器人并协助人类,开发和评估视觉接地 (VG) 如何影响被遮挡物体上的机器性能至关重要。然而,当前的 VG 工作仅限于工作环境,例如办公室和仓库,由于空间利用问题,对象通常被遮挡。在我们的工作中,我们提出了一个新颖的 OCID-Ref 数据集,该数据集具有一个引用表达式分割任务和被遮挡对象的引用表达式,为了解决具有挑战性的遮挡问题。 .........
原创
发布博客 2022.07.05 ·
406 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

深度学习-基础镜像发布系列

1、pytorch 基础镜像-From registry.cn-hangzhou.aliyuncs.com/hanran/ai-images:1.10.0-cuda11.3-cudnn8-devel# 中文问题ENV LANG=C.UTF-8 LC_ALL=C.UTF-8# 东八区问题ENV TZ=Asia/ShanghaiRUN ln -snf /usr/share/zoneinfo/$TZ /etc/localtime && echo $TZ > /etc/
原创
发布博客 2021.12.31 ·
1432 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

机器翻译-基础概念

1、机器翻译    机器翻译(machine translation, MT)是用计算机来实现不同语言之间翻译的技术。被翻译的语言通常称为源语言(source language),翻译成的结果语言称为目标语言(target language)。机器翻译即实现从源语言到目标语言转换的过程,是自然语言处理的重要研究领域之一。    机器翻译通常使用机器学习技术将大量文本从支持的语言翻译成支持的语言,即将“源”文本从一种语言翻译成另一种“目标”语言。尽管机器翻译技术背后的概念和使用界面相对简单,但其背后的科学
原创
发布博客 2021.12.31 ·
2851 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

构建 Kubeflow-任务自动化流程管理 前篇(一)

KubeFlow——机器学习流水线一. 为何使用- kubeflow现有市场模式面临的问题随着 AI 广泛使用在不同领域的业务中, 使商业模式发生改变——降低人力成本、提升自动化率就带来了商业价值。虽然业务价值持续增长,但企业对深度学习的投入也进入了冷静期,如何在有限人力成本的条件下,来最大化算法工程师的效率,成为企业、或是 AI 算法从业人员面临的问题;业务工作流程繁多: 数据标注/清洗、模型训练/验证/测试、跨平台的模型转换支持、产品级模型部署/交付.业务算法落地、迭代升级需要人工参与(业
原创
发布博客 2020.10.08 ·
849 阅读 ·
0 点赞 ·
3 评论 ·
1 收藏

Docker 系统内部时区修正

Docker容器,内部时间与宿主机器时间校正1. 查看docker内部时间,选择正确的时区 #date [-R]   #查看主机时间 #timedatectl #查看主机时区 #tzselect   #选择时区,5 选择亚洲 > 9 选择中国时区 -> 1选择北京时间 -> 1 选择Yes2. 修改主机时区 cp /usr/share/zonein...
原创
发布博客 2019.09.17 ·
776 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

安装 python virtualenv 虚拟环境

1. 工具包安装pip install virtualenv | sudo apt-get install python-virtualenv2. 创建虚拟环境# virtualenv /system_python_bin_path /your_virenv_local_pathvirtualenv -p /usr/bin/python2.7 /usr_local_path# 创建...
原创
发布博客 2019.07.29 ·
297 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Ubuntu Docker 安装——深度学习环境预备

1. docker 安装*建议首先更新 docker 源地址,推荐使用阿里源,官方源(网络可能无法到达)下面的操作系统环境为: Ubuntu 16.04 阿里镜像链接# step 1: 安装必要的一些系统工具sudo apt-get updatesudo apt-get -y install apt-transport-https ca-certificates curl softwar...
原创
发布博客 2019.07.25 ·
451 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

Dash for Mac 最新激活文件 license / 亲测可用

发布资源 2018.04.06 ·
dash-license

python opencv-3.0 SIFT/SURF 特征提取与匹配

一、环境准备目前 Opencv 有2.x 和 3.x 版本,两个版本之间的差异主要是一些功能函数被放置到了不同的功能模块,因此大多数情况两个版本的代码并不能通用。建议安装 Anaconda,自行下载相应版本。直接命令安装Opencv3, lake : conda install -c menpo opencv3pip install lake 二、SIFT/SURF 特征提取与匹配# cod
原创
发布博客 2017.12.27 ·
16524 阅读 ·
0 点赞 ·
1 评论 ·
29 收藏

Git 项目免密拉取代码-自动保存账号密码

编辑git文件进入git项目根目录: 1、linux : vi .git/config 于文件末尾添加内容,并保存[credential] helper = store 拉取或提交过一次代码后,会自动保存密码~
原创
发布博客 2017.12.15 ·
3290 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Sublime Text 3 for MAC 快捷键

1、Sublime Text 3是Sublime Text 2的升级版。Sublime Text 是一款流行的文本编辑器软件,有点类似于TextMate,跨平台,可运行在Linux,Windows和Mac OS X。 本篇主要针对 MAC环境下的快捷键整理
原创
发布博客 2017.06.29 ·
1531 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多