自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

周红伟讲AI

人工智能科学家,培训AI和ChatGPT学员超过10万人。

  • 博客(1986)
  • 收藏
  • 关注

原创 AIoT系列:AI赋能物联网,探索AIoT发展新趋势

  AIoT,即人工智能技术驱动下的物联网行业(AI+IoT)。作为各大传统行业智能化升级的通道,在To B/To G端,我们看到AIoT 已经在工业、智慧安防等场景中实现规模落地 ;而在To C侧,智能家居也在不断获得消费者认可。我们认为,未来五到十年间,AIoT将成为物联网行业发展的重要趋势,在感知、传输、应用及服务层有望驱动万亿元市场。  摘要  解决碎片化是AIoT行业的核心痛点。我们认为,AIoT的核心价值在于万物互联带来的降本增效,市场前景广阔,但目前落地的痛点是下游应用

2021-07-30 08:42:04 9113

原创 自然语言处理之Attention大详解(Attention is all you need)

1. 写在前面今天分享的论文是2017年谷歌团队发表的一篇论文,这是一篇非常经典的自然语言处理领域的文章,基于这篇文章,才有了最近非常火的bert, Albert等模型,接触这篇文章是在一次直播中看到的,因为经典,所以就想着读了读(虽然不是搞nlp的,但总感觉知识这东西都有一定的通性,多学一些肯定没有坏处,万一以后要用到呢?)。但是这篇论文本身我读了一遍之后,感觉不太懂,感觉里面有些东西并不是说的很清楚,具体流程更是别提了。可能我预备知识也不足,于是就查资料,然后结合直播中讲的理解了一下,仍然可能有不到位

2021-07-29 17:19:51 1860

原创 旷视AI「炼丹房」Brain++ 再升级 首席科学家孙剑发AI「灵魂」三问

万万没想到,我和小伙伴们被旷厂拿去「炼丹」了。没错,就是这个炼丹炉!站在炉子中央,各种算法代码眼前飞闪,让我体验了一把时空穿梭的快乐。OMG!真·颅内高潮...业界认为「炼丹」过程正如算法研究过程。众所周知,AI的三大支柱分别是数据、算法、算力。那么在炼丹过程中,数据便是金木水火土等自然元素,算法框架是用来炼丹的炉子,算力就是炼丹炉下的三昧真火。元素全不全,炉子好不好,火旺不旺决定了AI开发者能不能练...

2021-07-21 07:47:13 244 1

原创 vue使用query传参页面刷新数据丢失问题

今天开发的时候用query直接传了一个对象,在跳转之后的页面在对这个对象做解析,这样做其实蛮方便的,可惜的是页面不能刷新,虽然刷新后面页面的url还在,但是页面的object解析出错了。寻其原因第一次跳转数据是没问题的,但第二次刷新页面数据会变为[object object]解决办法:要跳转的传参页:先将数组转换为字符串。detailFun(row) { //console.log(JSON.stringify(row)) this.$router.push({ ...

2021-07-15 18:46:44 787

原创 NLP(二十八)多标签文本分类

  本文将会讲述如何实现多标签文本分类。什么是多标签分类?  在分类问题中,我们已经接触过二分类和多分类问题了。所谓二(多)分类问题,指的是y值一共有两(多)个类别,每个样本的y值只能属于其中的一个类别。对于多标签问题而言,每个样本的y值可能不仅仅属于一个类别。  举个简单的例子,我们平时在给新闻贴标签的时候,就有可能把一篇文章分为经济和文化两个类别。因此,多标签问题在我们的日常生活中也是很常见的。  对于多标签问题,业界还没有很成熟的解决方法,主要是因为标签之间可能会存在复杂的依赖关系,这种依赖

2021-07-13 16:44:28 1916 1

原创 知识图谱在小米的应用与探索

导读:小米知识图谱于2017年创立,已支持公司了每天亿级的访问,已赋能小爱同学,小米有品、智能问答、用户画像、虚拟助手、智能客服等互联网产品。通过引入知识图谱,这些产品在内容理解、用户理解、实体推荐等方面都有了显著的效果提升。本文的主要内容包括:小米知识图谱介绍:包括小米的商业模式、小米人工智能部、知识图谱在人工智能部的定位、小米知识图谱的发展历程、以及小米知识图谱的落地场景。小米知识图谱关键技术:小米知识图谱在成长过程中的技术积累。小米行业知识图谱探索:结合业务,跟大家分享下小米在行业...

2021-07-13 16:41:54 380

原创 韩家炜课题组重磅发文:文本分类只需标签名称,不需要任何标注数据!

文本分类的一个大型“真香现场”来了:昨天JayJay的推文《超强文本半监督MixText》中告诉大家不要浪费没有标注过的数据,但还是需要标注数据的!但今天介绍的paper,文本分类居然不需要任何标注数据啦!哇,真香!当前的文本分类任务需要利用众多标注数据,标注成本是昂贵的。而半监督文本分类虽然减少了对标注数据的依赖,但还是需要领域专家手动进行标注,特别是在类别数目很大的情况下。试想一下,我们人类是如何对新闻文本进行分类的?其实,我们不要任何标注样本,只需要利用和分类类别相关的少数单词就可以啦,这些单

2021-07-13 16:38:30 279

原创 CML 2020 | 显式引入对分类标签的描述,如何提高文本分类的效果?

论文链接:https://arxiv.org/pdf/2002.03067.pdf1简介一般来说,模型越深效果越好。但是同时,模型越深也更难训练——即无法收敛到训练集上一个好的值。今天,我们给大家介绍被 ICML2020接收的一篇文章:基于类别描述的文本分类模型。该模型的主要思想是:通过显式地引入对分类标签的描述提高文本分类的效果。我们提出了三种方法引入这种描述:模板法——对每个标签静态地指定一个描述; 抽取法——对每个标签在输入文本中抽取一段文字作为描述; 生成法——动...

2021-07-13 16:30:10 218

原创 多标签文本分类 [ALBERT](附代码)

目前,中文多标签文本分类的方法主要有3种,今天我们来详细介绍及实践其中的一种,算法框架使用的是ALBERT。一、介绍此项目是在tensorflow版本1.14.0的基础上做的训练和测试。 任务类型为中文多标签文本分类,一共有K个标签:。标签两两之间的关系有的是independent,有的是non independent。 模型的输入为一个sentence,输出为一个或者多个label。 简单介绍一个例子。假设个人爱好的集合一共有6个元素:运动、旅游、读书、工作、睡觉、美食。一...

2021-07-13 16:27:03 1927 1

原创 【功能升级】达摩盘3.0全新标签介绍前言

作为精准人群定向中台,经历日积月累的沉淀,达摩盘已拥有公域、私域维度标签上千个,覆盖基础属性、渠道、行业、媒体等众多领域,店铺私域也将直播、会员等诸多场景一一囊括。客户在海量标签的圈选过程中,标签货架的方式满足了足够强的自定义需求,也逐渐出现了标签难以查找、标签定义模糊等问题。而随着消费者运营方法论的兴起,“人、货、场”概念逐渐深入电商客户的日常工作,达摩盘也顺应潮流,从新梳理武器库中的所有标签,进行人货场维度改造。 更全面的标签维度,更精准的数据指标,更符合体验的圈选流程。“人货场”标签...

2021-07-13 16:02:44 1651

原创 用户画像标签体系——从零开始搭建实时用户画像(三)

用户画像标签体系​ 用户画像的核心在于给用户“打标签”,每一个标签通常是人为规定的特征标识,用高度精炼的特征描述一类人,例如年龄、性别、兴趣偏好等,不同的标签通过结构化的数据体系整合,就可与组合出不同的用户画像。​ 梳理标签体系是实现用户画像过程中最基础、也是最核心的工作,后续的建模、数据仓库搭建都会依赖于标签体系。​ 为什么需要梳理标签体系,因为不同的企业做用户画像有不同的战略目的,广告公司做用户画像是为精准广告服务,电商做用户画像是为用户购买更多商品,内容平台做用户画像是推荐用户更感兴趣..

2021-07-13 14:48:11 1262

原创 sqoop 增量导入,不重复

在实际的生产环境下,我们常常是要继续数据增量的导入核心参数–check-column用来指定一些列,这些列在增量导入时用来检查这些数据是否作为增量数据进行导入,和关系型数据库中的自增字段及时间戳类似.注意:这些被指定的列的类型不能使任意字符类型,如char、varchar等类型都是不可以的,同时–check-column可以去指定多个列–incremental用来指定增量导入的模式,两种模式分别为Append和Lastmodified–last-value指定上一次导入中检查列指定...

2021-07-13 09:43:48 581

原创 图片路径上传的配置问题

需求静态资源目录:/data/ruoyi/uploadPath。配置静态资源服务,且指向静态资源目录。配置静态资源服务 # static resources location /static/ { alias /data/ruoyi/uploadPath/; } 123456通过类似 http://test/static/upload/2021/04/15/6b24c663-1c04-4d0f-b608-8e7ba73c65...

2021-07-08 09:20:11 2479

原创 2018.11:大数据在政府统计中的应用、瓶颈及融合路径(余芳东)

  内容摘要:应用大数据是未来政府统计发展的必然趋势。本文系统梳理当前政府统计应用大数据的基本类型,研究探索大数据统计应用实践和基本方法思路,剖析大数据统计应用面临的困难和瓶颈,提出推进大数据与政府统计工作融合的路径。大数据的统计应用既有数据获取和质量上的困难,也有技术和方法上的瓶颈。研究认为,大数据与政府统计工作融合预期将经历三个渐进的变化阶段:从短期看,传统统计调查仍是政府统计数据的主要来源,而大数据逐渐成为政府统计的重要补充来源;从中期看,在政府统计信息系统中,大数据的影响逐渐上升,而传统调查的影响有

2021-07-06 11:56:55 1270

原创 干货,如何建立数据标签体系

大家好,我是一哥,今天给大家分享一篇标签体系如何建设的干货文章,欢迎转发收藏~为什么要先介绍标签体系?一个推荐系统效果好与坏最基本的保障、最基础的是什么?如果让我来回答,一定是标签体系。我这里说的标签主要是针对物料的,对于电商平台来说就是商品;对于音乐平台来说就是每一个首歌,对于新闻资讯平台来说就是每一条新闻。下一篇要介绍的是用户画像,画像中那些用户实时变化的兴趣点大都也是来自于标签体系,依据用户长期和短期行为中对于物料搜索、点击、收藏、评论、转发等事件,将物料的标签传导到用户画像上,就构成了用..

2021-07-06 11:55:37 1917

原创 标签数据建模

如上文所说,标签中心的作用是在现有的数据表之上构建跨计算存储的逻辑模型,直接让用户在视图层上对数据进行管理、加工、查询,屏蔽下层的多个大数据计算存储资源,简化数据的使用。当整个数据架构越复杂,越是需要多个计算存储资源组合使用的场景下,标签中心的价值就越为明显。标签建模的方法来源于阿里巴巴用户画像体系,广泛应用于精准营销、个性化推荐、用户画像、信用评分等需要基于明细数据进行计算的大数据应用当中。所谓标签就是对用户这一对象的一个最小描述单元,代表着所描述对象某一个具体的客观事实的抽象表达,如属性(性别 标..

2021-07-06 11:53:52 4203

原创 砸钱抢人抢项目,腾讯字节血拼游戏

2021年,互联网大厂在游戏行业“杀”疯了。企查查数据显示,2021年仅过去半年,游戏行业投资高达126起,创下近年新高,数量较2019年、2020年同期分别上涨了34%、157%(受疫情影响)。这其中,腾讯、B站、字节跳动分别以37起、11起、7起的投资数量,位列前三。腾讯投资是最激进的,上半年平均每5天投资一家游戏公司,字节跳动是最肯“砸钱”的,据媒体报道,其为并购沐瞳科技一口气豪掷了40亿美元。眼看着互联网大厂在游戏行业“疯狂”的跑马圈地,游戏公司老板向南思索再三,没有拿上述任

2021-07-06 11:25:00 480

原创 企业级360°全方位用户画像:标签系统[四]

文章目录前言标签系统基础标签组合标签微观画像标签查询前言这一章内容是详细的为大家介绍标签系统,废话不多说直奔主题提示:以下是本篇文章正文内容,下面案例可供参考标签系统基础标签概览:基础标签 启动WEB 项目后,浏览器登录,默认账号与密码,点击【登录】即可,下图所示: 进入系统后,直接显示【基础标签】页面,重要功能如下所示: 上述所表述的5个按钮,主要构建标签、查看标签和编辑标签,具体说...

2021-07-06 10:53:34 215

原创 大数据【企业级360°全方位用户画像】标签系统介绍

在前面几篇博客中,博主已经为大家带来了什么是用户画像,以及项目的一个基础介绍。用户画像的核心就是打标签,本篇博客,我们来聊聊关于这个项目的标签系统。文章目录1. 标签系统1.1 基础标签1.1.1、概览:基础标签1.1.2、新建:主分类标签1.1.3、新建:业务标签1.1.4、存储:标签数据1.1.5、新建:5级标签1.1.6、总述:新建标签1.2、组合标签1.3、微观画像1.4、标签查询小结1. 标签系统1.1 基础标签1.1.1、概览:基础标签 ...

2021-07-06 10:37:25 1176

转载 大数据【企业级360°全方位用户画像】业务数据调研及ETL

写在前面: 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。我.

2021-07-06 10:33:15 366

原创 数据中台:基于标签体系的360°用户画像

作者丨石秀峰全文共6375个字,建议阅读需18分钟一、从“标签”说起标签是用来标志您的产品目标和分类或内容,像是您给您的目标确定的关键字词,便于您自己和他人查找和定位自己目标的工具。目前标签广泛的使用到我们的工作和生活中,常见标签有三类:实物标签、网络标签和电子标签。实物标签是用于标明物品的品名、重量、体积、用途等信息的简要标牌,例如:商品标签、图书标签、车检标签、文件标签、服装吊牌、车票、登机牌都是实物标签。网络标签(Tag)是一种互联网内容组织方式,是相关性很强的关键字,它帮助人..

2021-07-06 10:30:49 725

原创 数据中台、标签、数据资产相关的15个名词解释

1 数据  数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态及相互关系等进行记载的物理符号或这些物理符号的组合。数据可以是连续的,比如声音、图像,称为模拟数据;也可以是离散的,如符号、文字,称为数字数据。在计算机系统中,数据以二进制信息单元0和1的形式表示。  在《标签类目体系》一书所论述的方法论中,“数据类目体系”概念中的“数据”是狭义的定义,单指企业原始拥有的、未经整理的信息载体。  02 数据资产  在传统概念中,企业认为其所拥有的所有数据资源都是数据资产,例如存放

2021-07-06 10:28:23 381

原创 数据中台到底包括什么内容?一文详解架构设计与组成

01数据中台功能架构数据中台建设是一个宏大的工程,涉及整体规划、组织搭建、中台落地与运营等方方面面的工作,本节重点从物理形态上讲述企业的数据中台应该如何搭建。一般来讲,企业的数据中台在物理形态上分为三个大层:工具平台层、数据资产层和数据应用层(见图4-2)。▲图4-2数据中台功能架构1. 工具平台层工具平台层是数据中台的载体,包含大数据处理的基础能力技术,如集数据采集、数据存储、数据计算、数据安全等于一体的大数据平台;还包含建设数据中台的一系列工具,如离线...

2021-07-06 10:26:28 1018

原创 若依项目linux部署

1.后台部署bin/package.bat 在项目的目录下执行然后会在项目下生成 target文件夹包含 war 或jar (多模块生成在ruoyi-admin)1、jar部署方式使用命令行执行:java –jar ruoyi.jar 或者执行脚本:bin/run.bat后台运行部署 nohup java -jar ruoyi.jar 2>1 &改动过后,记得clear2、war部署方式pom.xml packaging修改为war 放入tomcat服务器webapps.

2021-07-01 11:19:27 1952

原创 看懂人脸识别算法技术发展脉络

【摘要】 【摘要】我们从人脸识别技术的技术细节讲起,带你初步了解人脸识别技术的发展过程。通过平台实例的操作,带你看看如何利用公有云的计算资源,快速训练一个可用的人脸识别模型。前言大家应该都看过布拉德.伯德执导、汤姆.克鲁斯主演的《碟中谍4吧》?茫茫人海的火车站,只要一眨眼的功夫已经被计算机识别出来,随即被特工盯梢;迎面相逢的美女是致命杀手,手机发出嘀嘀的报警声,上面已经显示美女的姓名和信...【摘要】我们从人脸识别技术的技术细节讲起,带你初步了解人脸识别技术的发展过程。通过平台实例的操作,带你看看如何利

2021-06-27 11:53:51 1581

原创 RuoYi(分离版) 使用代码生成器添加子模块(idea版)

文章目录准备 一、使用代码生成器 1.数据库 2.导入表并生成代码 二、导入代码文件 1.新建一个模块 2.导入zip代码文件 3.模块环境配置 三、添加菜单和访问地址 总结准备前提要把系统启动起来,部分教程可以参考这边文章若依框架RuoYi前后端分离项目导入IDEA及运行启动但是完全参考这篇文章还是不能把项目启动起来,因为这篇文章没有说明数据库。我是用的是本地数据库,采用xampp+Navicat的组合来部署和访问数据库。打开Navicat,连接并创建数.

2021-06-23 14:57:56 1156

原创 【若依框架】代码生成详细教程

若依框架1、修改代码生成配置2、新建数据库表结构(单表)3、项目中新建模块,并解决项目依赖的关系4、若依系统中新建一个目录 - 学生管理5、导入一开始建的表并设置上级目录,生成代码6、执行生成的SQL7、将生成的代码放入项目中8、重启项目,访问页面若依官网的代码生成文档我觉得若依官方的代码生成教程过于简单,网上的教程很多连个效果图都没有。。本文要达到的效果如下:[学生管理] 下有个 [学生信息] 菜单,里面可以增删改查1、修改代码生成配置这步其实可做可不做。单应用:编辑

2021-06-23 14:43:41 1635 1

原创 RuoYi(分离版) 使用代码生成器添加子模块(idea版)

文章目录准备 一、使用代码生成器 1.数据库 2.导入表并生成代码 二、导入代码文件 1.新建一个模块 2.导入zip代码文件 3.模块环境配置 三、添加菜单和访问地址 总结准备前提要把系统启动起来,部分教程可以参考这边文章若依框架RuoYi前后端分离项目导入IDEA及运行启动但是完全参考这篇文章还是不能把项目启动起来,因为这篇文章没有说明数据库。我是用的是本地数据库,采用xampp+Navicat的组合来部署和访问数据库。打开Navicat,连接并创建数.

2021-06-23 14:33:43 695

原创 若依JAVA开源框架自动生成代码步骤记录-创建子module以及导入子module相关问题

目录创建大分类创建功能表生成代码创建module并导入生成的代码导入子模块修改自己module的pom.xml和ruoyi-admin下的pom.xml运行效果创建大分类进入系统管理—》菜单管理,新添一个大分类创建功能表在数据库创建自己的功能表,根据自己需求来创建。生成代码进入系统工具—》代码生成—》导入,导入刚刚创建的功能表;点击编辑修改基本信息和生成信息,可以直接照葫芦画瓢就好;点击生成代码并下载到本地,解压生成的代码包,执行里面生成的sql文件,用于更新菜单信息;

2021-06-23 14:24:05 502

原创 【若依框架】代码生成详细教程

若依框架1、修改代码生成配置2、新建数据库表结构(单表)3、项目中新建模块,并解决项目依赖的关系4、若依系统中新建一个目录 - 学生管理5、导入一开始建的表并设置上级目录,生成代码6、执行生成的SQL7、将生成的代码放入项目中8、重启项目,访问页面若依官网的代码生成文档我觉得若依官方的代码生成教程过于简单,网上的教程很多连个效果图都没有。。本文要达到的效果如下:[学生管理] 下有个 [学生信息] 菜单,里面可以增删改查1、修改代码生成配置这步其实可做可不做。单应用:编辑

2021-06-23 14:20:42 1911

原创 基于若依框架的二次开发_浅谈若依框架

何为框架?若依框架又是什么?具备什么功能?框架的英文为Framework,带有骨骼,支架的含义。在软件工程中,框架往往被定义为整个或部分系统的可重用设计,是一个可重复使用的设计构件。类似于一个数学公式或某种流程。而若依框架又是什么?其实就是一套后台管理系统,它采用了Spring Boot和Shiro安全控制框架,以及Thymeleaf模板。Spring Boot是一个基于Spring开发的框架,它继承了Spring原有的功能特性,并且简化了Spring应用的搭建。解决了依赖包的版本冲突,摈弃了S

2021-06-23 14:14:25 6379

原创 若依框架二次开发中的坑

1、是目录不是菜单2、:key的级联按钮的强制刷新3、动手做

2021-06-23 14:11:06 1254

原创 Vue中强制组件重新渲染的正确方法

Vue中强制组件重新渲染的正确方法瞎转悠达 2020-12-10 12:03:00 1567 收藏 2文章标签: vue python java javascript 数据库版权【大神观摩】他半年把python 学到了能出书的程度他是知名外企技术架构师,在业余时间半年自学Python,就撰写了两部Python技术书籍,他是如何做到的?5月14日(周四)晚8点邀请您一起直播观摩。有时候,依赖vue响应方式来更新数据是不够的,相反,我们需要手动重新渲染组件来更新数据。或者,我们可能只想抛...

2021-06-23 14:07:28 220

原创 如何真正理解用户标签体系?

对用户标签的理解不够透彻?用户标签体系创建的方法论总是三头两绪?具体业务场景中,经常找不到数据分析的思路?本文根据神策数据业务咨询师钟秉哲以《构建用户标签体系,助力企业精细化运营》为主题的直播内容凝练要点而成,将系统回答业务人员重点关注的如下四类问题:为什么要做用户标签画像?如何构建完备的用户标签体系?标签的生产和创建有哪些细节和经验?如何利用好用户画像分析赋能业务落地?相信在阅读本文后,您的困惑都将迎刃而解。1. 标签的本质简单地说,所谓的用户标签...

2021-06-20 13:24:15 735

原创 Pytorch-使用Bert预训练模型微调中文文本分类

语料链接:https://pan.baidu.com/s/1YxGGYmeByuAlRdAVov_ZLg提取码:tzaoneg.txt和pos.txt各5000条酒店评论,每条评论一行。安装transformers库!pip install transformers导包,设定超参数 1 import numpy as np 2 import random 3 import torch 4 import matplotlib.pyplot as plt 5 from to

2021-06-07 09:01:50 2629 3

原创 数据指标体系搭建实践

为什么要构建数据指标体系?因为我们希望时间能花在解决问题而不是寻找问题上。前言我们所需要的并不是数据,而是数据背后映射的洞察。在业务发展过程中,会产生大量的数据,单看数据是没有价值的,只有和业务相结合转化为信息,再经过处理才能体现其价值。对于业务数据而言,通常分为两项:其一是维度,其二是度量,或者说是指标,这两项构成了我们数据分析的基础。对于结构化数据,我们可以理解为一个多维立方体(cube),里面存在着维度和度量。当然,不仅仅是三维,可以有多个维度。这里拿三维立方体

2021-06-04 08:39:02 462

原创 transformers库的使用【二】tokenizer的使用,模型的保存自定义

使用标记器(tokenizer)在之前提到过,标记器(tokenizer)是用来对文本进行预处理的一个工具。首先,标记器会把输入的文档进行分割,将一个句子分成单个的word(或者词语的一部分,或者是标点符号)这些进行分割以后的到的单个的word被称为tokens。第二步,标记器会把这些得到的单个的词tokens转换成为数字,经过转换成数字之后,我们就可以把它们送入到模型当中。为了实现这种能把tokens转换成数字的功能,标记器拥有一个词表,这个词汇表是在我们进行实例化并指明模型的时候下载的

2021-05-31 08:51:04 9314 1

原创 doker zookeeper kafka单机搭建

因工作需求,环境需要搭建zookeeper,kafka集群,也是刚接触从零开始搭建,此文章是用docker搭建的单机版,搭建过程还是比较顺利的,此前用传统方式搭建了一遍,后面才知道用docker也可以,用了docker之后发现很方便正文首先拉取镜像docker pull zookeeper:latestdocker pull wurstmeister/kafka:lastest启动容器启动zookeeperdocker run -d --name zookeeper -...

2021-05-24 13:44:34 137

原创 风控评分卡建模全流程

风控评分卡建模全流程前言本文将通过 python 代码演示传统评分卡建模的全流程,比较通用的一个版本。评分卡已经发展得非常成熟了,对于不同业务或者不同建模人员下的模型构建过程可以称得上是大同小异。微信阅读可选择点击前往:风控评分卡建模全流程个人水平有限,py coding 这块着实造诣不深,目前多是"照葫芦画瓢",站在前辈们的肩膀上前行。由于代码篇幅较长,先提前在这里感谢锋大、翟锟老师等在建模方面给予的极大帮助定。正文评分卡实现主要使用自定义函数以及谢博士的 scorecardpy

2021-05-17 09:29:24 404

原创 自动化特征工程和自动建模在风控场景的应用

一、背景和问题目前,模型开发的流程越来越规范化,通常可以分为业务分析、样本准备、特征工程、模型构建、模型评估及监控这几个步骤。其中,特征工程和模型构建在建模的整个流程中依然非常耗时,并且非常依赖于模型开发者对业务的理解及数据处理的能力。在目前实际业务场景下,面临的最大的一个问题是,如何快速地构建起一个质量相对不错的模型,以适应业务的快速发展。传统的风控建模周期较长,通常要20天左右的时间才能达到上线的要求。其中,特征工程的耗时在整个建模过程中会占到大约60%的时间,且这个过程的挑战就是人..

2021-05-12 14:29:10 566

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除