自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 收藏
  • 关注

原创 从大量文本中挖掘‘典型意见‘-基于DBSCAN的文本聚类实战

文本聚类,是一个无监督学习里面非常重要的课题,无论是在风控还是在其他业务中,通过对大规模文本数据的分析,找出里面的聚集观点,有助于发现新的问题或者重点问题。

2024-06-14 15:39:15 993

原创 风控中的文本相似方法之余弦定理

从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。结果是与向量的长度无关的,仅仅与向量的指向方向相关。余弦相似度通常用于正空间,因此给出的值为-1到1之间。

2024-06-13 18:45:49 874

原创 风控场景下文本分类-实战

本系列主要介绍了风控场景下文本分类的基本方法,对抗文本变异,包括传统的词袋模型、循环神经网络,也有常用于计算机视觉任务的卷积神经网络,以及 RNN + CNN,试验完一遍,基本能搞定大部分的文本分类以及文本变异对抗问题。算是个保姆级的入门教程。

2024-06-06 10:51:23 915

原创 NLP(1)-TF-IDF算法介绍

一、TF-IDF算法介绍TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。主要思想是:如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

2024-06-05 11:00:06 863

原创 大数据分析挖掘框架@Spark初步

Apache Spark是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模的数据进行快速分析查询。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量的廉价硬件之上,形成集群。Spark提供使用Java、Scala、Python 和 R 语言的开发 API,支持跨多个工作负载重用代码—批处理、交互式查询、实时分析、机器学习和图形处理等。Apache Spark 已经成为最受欢迎的大数据分布

2024-05-21 18:57:37 880

原创 Spark SQL 操作实战

Spark SQL 是 Apache Spark 处理结构化数据的模块。

2024-05-21 16:47:12 396

原创 Spark RDD 操作实战

PySpark是Spark的PythonAPI,允许Python调用Spark编程模型。

2024-05-21 16:44:30 467

原创 机器学习实战-聚类算法

聚类算法是一种无监督学习算法,可以将相似的数据点分组成簇,是数据挖掘和机器学习领域中的重要技术之一。常用的聚类算法包括上文的K-Means、层次聚类、DBSCAN等。聚类算法的优点在于可以自动发现数据的内在结构和规律,可以用于数据挖掘、图像处理、自然语言处理、生物信息学、物联网等领域。在笔者看来,聚类算法的缺点在于需要大量计算资源和时间,容易受到噪声数据和异常值的影响,聚类结果也需要经过人工分析和解释,需要专业性,熟练性人才进入市场才能发挥这款无监督学习算法的强大作用。

2024-04-30 17:13:08 598 1

原创 主成分分析PCA

在scikit-learn中,与PCA相关的类都在sklearn.decomposition包中。最常用的PCA类就是sklearn.decomposition.PCA下面我们主要基于sklearn.decomposition.PCA来讲解如何使用scikit-learn进行PCA降维。PCA类基本不需要调参,一般来说,我们只需要指定我们需要降维到的维度,或者我们希望降维后的主成分的方差和占原始维度所有特征方差和的比例阈值就可以了。

2024-04-30 15:52:30 867

原创 零基础入门金融风控-贷款违约预测Task2 数据分析

数据总体了解:读取数据集并了解数据集大小,原始特征维度;通过info熟悉数据类型;粗略查看数据集中各特征基本统计量;缺失值和唯一值:查看数据缺失值情况查看唯一值特征情况深入数据-查看数据类型类别型数据数值型数据离散数值型数据连续数值型数据数据间相关关系特征和特征之间关系特征和目标变量之间关系用pandas_profiling生成数据报告47列数据中有22列都缺少数据,这在现实世界中很正常。‘policyCode’具有一个唯一值(或全部缺失)。

2024-02-19 13:54:01 1407

原创 Datawhale零基础入门金融风控Task1 赛题理解

赛题理解是开始比赛的第一步,赛题的理解有助于对竞赛全局的把握。通过赛题理解有助于对赛题的业务逻辑把握,对于后期的特征工程构建和模型选择都尤为重要。在开始比赛之前要对赛题进行充分的了解。比赛什么时候开始,什么时候结束,什么时候换B榜数据。和该比赛有没有类似的比赛可以参考借鉴。线上提交结果的次数往往是有限的,提前了解每日可以提交的次数。比赛使用的是什么评价指标,可以选择相同的评价指标作为线下验证的方式。

2024-02-19 10:40:06 813

原创 Graph | NetworkX 入门教程

因为您可以通过视图查找节点和边缘数据属性,并使用方法 .items()、.data() 迭代数据属性。这种灵活性非常强大,因为它允许图形组成的图形,文件组成的图形,函数组成的图形等等。根据定义,图形是节点(顶点)以及已识别的节点对(称为边,链接等)的集合。边的元组可以是 2 元组节点,也可以是 3 元组:在 2 个节点后跟边的属性字典,如。诸如权重、标签、颜色或任何您喜欢的 Python 对象之类的属性都可以附加到图形、节点或边上。)对象,例如,文本字符串、图像、XML对象、另一个图、自定义节点对象等。

2024-01-15 15:05:44 1326 1

原创 社交网络学习笔记1——图的基本概念

无向图无向图2. 有向图。

2024-01-11 16:08:06 973

原创 PrestoSQL(trino)和Hive SQL的日期格式转换对比

【代码】PrestoSQL(trino)和Hive SQL的日期格式转换对比。

2023-11-08 15:41:51 875

原创 KNN算法及其应用

假如一套房子打算出租,但不知道市场价格,可以根据房子的规格(面积、房间数量、厕所数量、容纳人数等),在已有数据集中查找相似(K近邻)规格的房子价格,看别人的相同或相似户型租了多少钱。我们本次用到的数据集是 🏆rent_price,大家可以通过ShowMeAI的百度网盘地址下载。🏆实战数据集下载(百度网盘):公众号『ShowMeAI研究中心』回复『实战』,或者点击这里获取本文[40]图解机器学习 | KNN算法及其应用房屋出租价格预测数据集⭐ShowMeAI官方GitHub。

2023-09-21 17:53:19 905

转载 机器学习-模型评估方法与准则

主要涉及到对完整数据集不同的有效划分方法,保证我们后续计算得到的评估指标是可靠有效的,进而进行模型选择和优化。

2023-08-09 16:22:40 211

原创 Python数据分析速查手册

1、Pandas速查手册。

2023-04-10 20:40:02 122

原创 SQL窗口函数

SQL支持的窗口函数如下。

2023-04-04 16:24:41 188

原创 PRESTO SQL总结

('month',create_time,end_time),结果是先计算天差后与create_time的月份天数比较,看是否足月。date_trunc日期截取函数,输出结果也为日期型,非常方便与其他日期型函数结合参与运算,如date_diff,date_add,官方文档见图。是varchar类型,date_add与date_trunc函数都是需要date,time类型,不支持字符串格式。var_name)s,调用时使用params参数,格式为params = {'name':'value'}

2023-03-22 16:51:42 416

原创 欠采样(undersampling)和过采样(oversampling)会对模型带来怎样的影响?

欠采样(undersampling)和过采样(oversampling)会对模型带来怎样的影响

2023-01-10 18:06:35 481

原创 项目中常用的19条MySQL优化

这样的语句,普通索引是无法满足查询需求的。如果连接方式是inner join,在没有其他过滤条件的情况下MySQL会自动选择小表作为驱动表,但是left join在驱动表的选择上遵循的是左边驱动右边的原则,即left join左边的表名为驱动表。区分in和exists主要是造成了驱动顺序的改变(这是性能变化的关键),如果是exists,那么以外层表为驱动表,先被访问,如果是IN,那么先执行子查询。优化的方法如下:可以取前一页的最大行数的id,然后根据这个最大的id来限制下一页的起点。

2023-01-03 10:40:34 75

原创 机器学习实战:信用卡欺诈检测

信用卡欺诈检测

2022-12-22 17:45:39 355

原创 Python基于主成分分析的客户信贷评级

大样本的数据集固然提供了丰富的信息,但也在一定程度上增加了问题的复杂性。如果我们分别对每个指标进行分析,往往得到的结论是孤立的,并不能完全利用数据蕴含的信息。但是盲目的去减少我们分析的指标,又会损失很多有用的信息。所以我们需要找到一种合适的方法,一方面可以,另一方面尽量。变量压缩的方法非常多,但百法不离其中,其实最根本的都是(Primary Component Analysis,下简称PCA)。总的来说降维有两种方法,一种是,另一种是PCA就是一种常见的。

2022-10-18 20:05:24 400

原创 200个查理芒格思维模型---多元思维模型

本文是对查理·芒格200个思维模型的重磅汇总,值得收藏起来反复研读、推敲精进。--------前100个思维模型------------1. 机会成本 思维模型机会成本是指为了得到某种东西而所要放弃另一些东西的最大价值;也可以理解为在面临多方案择一决策时,被舍弃的选项中的最高价值者是本次决策的机会成本;还指厂商把相同的生产要素投入到其他行业当中去可以获得的最高收益。2.直觉思维模型又称为直观,通常被描述为,一种不用经过太多思考过程,很快就能出现的直接想法、感觉、信念或者偏好。当我们有某种信仰,但是不确知它的

2022-09-15 11:10:28 414

原创 剑指算法code

剑指算法

2022-09-07 12:39:03 173

原创 XGBoost 重要参数(调参使用)

XGBoost 重要参数

2022-09-06 17:22:17 152

原创 风控模型师--技术篇

对于普通的决策树,是在所有样本特征中找一个最优特征来做决策树的左右子树划分,而随机森林会先通过自助采样的方法(bootstrap)得到N个训练集,然后在单个训练集上会随机选择一部分特征,来选择一个最优特征来做决策树的左右子树划分,最后得到N棵决策树,对于分类问题,按多数投票的准则确定最终结果,对于回归问题,由多棵决策树的预测值的平均数作为最终结果。交叉验证,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。

2022-09-06 12:32:17 97

原创 机器学习中的特征工程总结

机器学习中的特征工程总结

2022-08-16 13:44:58 108

原创 机器学习算法分类知识总结

机器学习算法分类知识总结

2022-08-16 12:43:46 414

原创 机器学习综述

机器学习综述

2022-08-16 12:36:48 135

原创 社区发现之标签传播算法(LPA)

社区发现之标签传播算法(LPA)

2022-08-16 11:30:58 509

原创 Apriori 算法-如何进行关联规则挖掘

目录1,关联分析2,三个重要概念3,如何寻找频繁项4,Apriori 算法5,Apriori 算法的实现6,总结在数据分析领域有一个经典的故事,叫做“尿布与啤酒”。据说,在美国西部的一家连锁超市发现,很多男人会在周四购买尿布和啤酒。这样超市就可以将尿布与啤酒放在一起卖,便可以增加销售量。“尿布与啤酒”这个案例就属于数据分析中的关联分析,也就是分析数据集中的内在隐含关系。关联分析可以被用于发掘商品与商品之间的内在关联关系,进而通过商品捆绑销售或者相互推荐,来增加商品销量。关联分析除了可以用于零售

2022-06-17 10:47:15 1019

原创 金融风控建模评分卡系列:机器学习特征选择方法

在数据维度”泛滥”成灾的现代,如果不对特征进行筛选直接来建模的话不但会造成模型复杂度的提升,增加计算压力,同时也会因为数据的冗余浪费没有必要的数据费用支出。特别是在金融领域内,因为要求对模型的复杂度和可解释性都有很高的要求,所以在建模前的特征选择是及其重要的。因为每个人在建模时的习惯和方式有差别,所以在选择特征筛选方法的时候也会略有差异,以下会列举使用比较多的方法,你可以根据自己的需求进行使用。需特别说明一下特征选择没有固定的标准和尺度,这一部分需要读者根据自己的实际情况进行设计,但是总的宗旨是”降冗余”。

2022-06-17 10:45:20 347

原创 手动计算LOF异常检测算法

LOF异常检测算法

2022-06-14 15:55:49 310 1

原创 异常检测算法之(KNN)-K Nearest Neighbors

异常检测算法之(KNN)-K Nearest Neighbors

2022-06-14 15:31:09 468

原创 异常检测方法总结

异常检测

2022-06-09 12:51:59 900

转载 MySQL添加字段和修改字段的方法

MySQL添加字段和修改字段的方法:1.登录数据库>mysql -u root -p 数据库名称2.查询所有数据表>show tables;3.查询表的字段信息>desc 表名称;4.1添加表字段alter table table1 add transactor varchar(10) not Null;alter table

2016-12-14 16:24:56 697

转载 linux进程后台运行的几种方法 - nohup/setsid/&

我们经常会碰到这样的问题,用 telnet/ssh 登录了远程的 Linux 服务器,运行了一些耗时较长的任务, 结果却由于网络的不稳定导致任务中途失败。如何让命令提交后不受本地关闭终端窗口/网络断开连接的干扰呢?下面举了一些例子, 您可以针对不同的场景选择不同的方式来处理这个问题。nohup/setsid/&场景:如果只是临时有一个命令需要长时间运行,什么方法能最简便的保

2016-12-14 12:12:17 1424

转载 搭建或者升级Python环境笔记

搭建或者升级Python环境笔记,吐血记录!每次在新的Centos上折腾Python时,在参考之前的两篇文章(见本文结尾文章推荐)之后,总是会遇到这样那样的问题,原来是一些Python所依赖的包没有安装好,导致又得重新make&make install了遍,非常折磨人,于是找了一些资料,把Python运行时所需要的一包找全了,在正式安装Python之前,先把这些安装好,果然就没什么问题

2016-12-13 19:39:53 239

转载 python并发编程之多进程、多线程、异步和协程详解

最近学习python并发,于是对多进程、多线程、异步和协程做了个总结。一、多线程多线程就是允许一个进程内存在多个控制权,以便让多个函数同时处于激活状态,从而让多个函数的操作同时运行。即使是单CPU的计算机,也可以通过不停地在不同线程的指令间切换,从而造成多线程同时运行的效果。多线程相当于一个并发(concunrrency)系统。并发系统一般同时执行多个任务。如果多个任务可以

2016-12-12 23:14:09 6251

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除