自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (3)
  • 收藏
  • 关注

原创 xgboost的pmml文件转为hive udf

1. 将项目拉到本地git clone git@github.com:jpmml/jpmml-evaluator-hive.git2. 进到目录中安装mvn clean install3. 将得到的其中一个runtime的`jar`包放到HDFS上hdfs dfs -put jpmml-evaluator-hive-runtime-1.0-SNAPSHOT.jar somedir/4. 在hive中加载add jar {hdfs_home}/somedir/jpmml-e

2020-06-16 15:03:28 768

原创 微博文本分类任务

数据借用了这位兄弟的数据,4类文本分类问题:https://blog.csdn.net/qq_28626909/article/details/80382029代码参考预处理工具torchtext学习参考了nlpuser和dendi_hust二位兄弟:https://blog.csdn.net/nlpuser/article/details/88067167 https://blog.cs...

2019-11-27 16:14:35 1617

原创 基于模块度的 louvain

1. 模块度模块度Q作为社团发现中,社团聚类效果的度量,取值范围是[−1/2,1),越大说明聚类效果越好;定义为:e矩阵a计算a的另一种解释:在一种理想情况下,给定任意节点i的的度ki,对节点i和节点j进行随机连边,边属于社区c的概率期望:表示 结点i 和 结点j 之间边的数目表示 随机放置边的情况下,结点i和结点j 之间边数的期望值带上...

2019-11-27 15:10:07 513

原创 知识图谱(关系网络)概念及常用算法

目录1 什么是图?2 图能做什么?3 传统的图算法从应用角度可分为三类3.1路径查找算法——Dijkstra3.2中心度算法——PageRank3.3 社区发现算法——LPA4 图神经网络5 网络表示学习和图嵌入5.1基于矩阵分解的图嵌入5.2基于随机游走的图嵌入5.3基于图神经网络的图嵌入引用:1 什么是图?图是一种常见的数据...

2019-11-27 15:05:56 31711 4

原创 在不平衡样本上建模

1 不平衡样本对模型的影响数据存在不平衡,则预测得出的结论往往也是有偏的,即分类结果会偏向于较多观测的类。LR分类平面:分类概率分布:2 基于数据的方法2.1 随机过采样和欠采样定义最简单的处理不平衡数据的方法是随机采样,一般分过采样和欠采样。过采样定义:过采样是从少数类样本集中随机重复抽取样本(有放回)已得到更多样本;欠采样定义:从多数类样本集中随机选...

2019-07-21 14:48:14 1922

原创 GraphX简介及GraphFrames测试

目录概观架构存储图的构造GraphFrames安装测试参考概观GraphX是Spark中用于图和图计算的组件,GraphX通过扩展Spark RDD引入了一个新的图抽象数据结构,一个将有效信息放入顶点和边的有向多重图。如同Spark的每一个模块一样,它们都有一个基于RDD的便于自己计算的抽象数据结构(如SQL的DataFrame,Str...

2019-07-21 11:16:03 7138 1

原创 消费信贷评分建模与应用笔记-2

重点来了 第五章 常用指标与分析手法 指标 描述 逾期天数 (DPD) 已逾契约书约定缴款日的延滞天数,贷放型产品自缴款截止日(通常为次一关帐日)后第一天开始算。 逾期期数 (bucket) M2逾期2期,一般指逾期天数30-60日 逾期阶段 (stage) 前期、中期、后期、转呆账 即期指标 (coincidental) 以...

2018-08-18 17:01:31 1912 6

原创 消费信贷评分建模与应用笔记-1

入门风险管理,找了一本糙书熟悉一些概念,书中框架仅供参考。 序第一章 消费金融风险第二章 消费金融风险管理基础——信用循环第三章 MIS 分类与架构第四章 MIS三大支柱序与商业银行相比,互金的优势在对大数据的应用,劣势在于缺乏现场经验第一章 消费金融风险风险成因1. 经济环境:股市下跌、房市下跌、金融危机等其他系统性风险;2. 客户端:信用观念弱、...

2018-08-18 15:12:43 2879

Graph Algorithms.zip

Graph Algorithms Neo4j书的配套代码,知识图谱,基于neo4j的图算法

2019-07-21

Graph_Databases_for_Beginners.pdf

图数据库入门,图存储入门,主要是基于neo4j

2019-07-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除