通向实在之路:数据科学实战
文章平均质量分 94
数据科学相关理论及实践
简之
这个作者很懒,什么都没留下…
展开
-
企业隐患排查文本挖掘比赛(三):LGB文本分类(调参+阈值搜索)
1、数据集经过前两部分的处理,我们可以得到参与建模的变量,统计类特征的处理包括在mainProcess中,bert构建的特征包括在get_bert_features中,数据预处理如下:import warningswarnings.simplefilter('ignore')import reimport gcimport pickleimport numpy as npimport pandas as pdpd.set_option('max_columns', None)pd.se原创 2021-07-04 16:35:34 · 2308 阅读 · 6 评论 -
企业隐患排查文本挖掘比赛(二):算法篇(从词向量到BERT)
1、文本挖掘的历程对于NLP问题,首先要解决的是文本表示的问题。虽然人能够清楚地了解文本的含义,但是计算机只能处理数值运算,因此首先要考虑如何将文本转化为数值。1.1 向量表示1.1.1 词袋模型最初的方案是通过词袋模型把一个句子转化为向量表示。它不考虑句子中单词的顺序,只考虑词表(vocabulary)中单词在这个句子中的出现次数。如果是表示一个词,那就是one-hot的方式,比如我们想表示apple这个词,就在对应位置设置1,其他位置设置为0,如下:如果是表示一个句子,比如:"John原创 2021-07-02 17:43:14 · 1291 阅读 · 0 评论 -
企业隐患排查文本挖掘比赛(一):数据篇
1、比赛说明基于文本挖掘的企业隐患排查质量分析模型1.1 赛题背景企业自主填报安全生产隐患,对于将风险消除在事故萌芽阶段具有重要意义。企业在填报隐患时,往往存在不认真填报的情况,“虚报、假报”隐患内容,增大了企业监管的难度。采用大数据手段分析隐患内容,找出不切实履行主体责任的企业,向监管部门进行推送,实现精准执法,能够提高监管手段的有效性,增强企业安全责任意识。1.2 赛题任务本赛题提供企业填报隐患数据,参赛选手需通过智能化手段识别其中是否存在“虚报、假报”的情况。1.3 赛题数据训练集:原创 2021-06-29 22:29:53 · 869 阅读 · 3 评论 -
DSSM双塔模型及pytorch实现
本文介绍用于商业兴趣建模的 DSSM 双塔模型。作为推荐领域中大火的双塔模型,因为效果不错并且对工业界十分友好,所以被各大厂广泛应用于推荐系统中。通过构建 user 和 item 两个独立的子网络,将训练好的两个“塔”中的 user embedding 和 item embedding 各自缓存到内存数据库中(redis)。线上预测的时候只需要在内存中计算相似度运算即可。DSSM 双塔模型是推荐领域不中不得不会的重要模型。以 YouTube 视频推荐系统为例,一般推荐系统包括两个部分:第一步是召回模原创 2021-06-20 12:44:10 · 10596 阅读 · 18 评论 -
信用评分卡模型
1、评分卡简介信用评分卡模型是最常见的金融风控手段之一,它是指根据客户的各种属性和行为数据,利用一定的信用评分模型,对客户进行信用评分,据此决定是否给予授信以及授信的额度和利率,从而识别和减少在金融交易中存在的交易风险。评分卡模型在不同的业务阶段体现的方式和功能也不一样。按照借贷用户的借贷时间,评分卡模型可以划分为以下三种:贷前:申请评分卡(Application score card),又称为A卡贷中:行为评分卡(Behavior score card),又称为B卡贷后:催收评分卡(原创 2021-06-19 23:11:34 · 4667 阅读 · 1 评论