一缕阳光lyz-CSDN博客

原创从大量文本中挖掘‘典型意见‘-基于DBSCAN的文本聚类实战

文本聚类，是一个无监督学习里面非常重要的课题，无论是在风控还是在其他业务中，通过对大规模文本数据的分析，找出里面的聚集观点，有助于发现新的问题或者重点问题。

2024-06-14 15:39:15 1191

原创风控中的文本相似方法之余弦定理

从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。结果是与向量的长度无关的，仅仅与向量的指向方向相关。余弦相似度通常用于正空间，因此给出的值为-1到1之间。

2024-06-13 18:45:49 1117

原创风控场景下文本分类-实战

本系列主要介绍了风控场景下文本分类的基本方法，对抗文本变异，包括传统的词袋模型、循环神经网络，也有常用于计算机视觉任务的卷积神经网络，以及 RNN + CNN，试验完一遍，基本能搞定大部分的文本分类以及文本变异对抗问题。算是个保姆级的入门教程。

2024-06-06 10:51:23 1150

一、TF-IDF算法介绍TF-IDF（term frequency–inverse document frequency，词频-逆向文件频率）是一种用于信息检索（information retrieval）与文本挖掘（text mining）的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。主要思想是：如果某个单词在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

2024-06-05 11:00:06 1098

原创大数据分析挖掘框架@Spark初步

Apache Spark是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式，可针对任何规模的数据进行快速分析查询。Spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量的廉价硬件之上，形成集群。Spark提供使用Java、Scala、Python 和 R 语言的开发 API，支持跨多个工作负载重用代码—批处理、交互式查询、实时分析、机器学习和图形处理等。Apache Spark 已经成为最受欢迎的大数据分布

2024-05-21 18:57:37 998

原创 Spark SQL 操作实战

Spark SQL 是 Apache Spark 处理结构化数据的模块。

2024-05-21 16:47:12 510

原创 Spark RDD 操作实战

PySpark是Spark的PythonAPI，允许Python调用Spark编程模型。

2024-05-21 16:44:30 525

原创机器学习实战-聚类算法

聚类算法是一种无监督学习算法，可以将相似的数据点分组成簇，是数据挖掘和机器学习领域中的重要技术之一。常用的聚类算法包括上文的K-Means、层次聚类、DBSCAN等。聚类算法的优点在于可以自动发现数据的内在结构和规律，可以用于数据挖掘、图像处理、自然语言处理、生物信息学、物联网等领域。在笔者看来，聚类算法的缺点在于需要大量计算资源和时间，容易受到噪声数据和异常值的影响，聚类结果也需要经过人工分析和解释，需要专业性，熟练性人才进入市场才能发挥这款无监督学习算法的强大作用。

2024-04-30 17:13:08 814 1

原创主成分分析PCA

在scikit-learn中，与PCA相关的类都在sklearn.decomposition包中。最常用的PCA类就是sklearn.decomposition.PCA下面我们主要基于sklearn.decomposition.PCA来讲解如何使用scikit-learn进行PCA降维。PCA类基本不需要调参，一般来说，我们只需要指定我们需要降维到的维度，或者我们希望降维后的主成分的方差和占原始维度所有特征方差和的比例阈值就可以了。

2024-04-30 15:52:30 923

原创零基础入门金融风控-贷款违约预测Task2 数据分析

数据总体了解：读取数据集并了解数据集大小，原始特征维度；通过info熟悉数据类型；粗略查看数据集中各特征基本统计量；缺失值和唯一值：查看数据缺失值情况查看唯一值特征情况深入数据-查看数据类型类别型数据数值型数据离散数值型数据连续数值型数据数据间相关关系特征和特征之间关系特征和目标变量之间关系用pandas_profiling生成数据报告47列数据中有22列都缺少数据，这在现实世界中很正常。‘policyCode’具有一个唯一值（或全部缺失）。

2024-02-19 13:54:01 1580

原创 Datawhale零基础入门金融风控Task1 赛题理解

赛题理解是开始比赛的第一步，赛题的理解有助于对竞赛全局的把握。通过赛题理解有助于对赛题的业务逻辑把握，对于后期的特征工程构建和模型选择都尤为重要。在开始比赛之前要对赛题进行充分的了解。比赛什么时候开始，什么时候结束，什么时候换B榜数据。和该比赛有没有类似的比赛可以参考借鉴。线上提交结果的次数往往是有限的，提前了解每日可以提交的次数。比赛使用的是什么评价指标，可以选择相同的评价指标作为线下验证的方式。

2024-02-19 10:40:06 980

原创 Graph | NetworkX 入门教程

因为您可以通过视图查找节点和边缘数据属性，并使用方法 .items()、.data() 迭代数据属性。这种灵活性非常强大，因为它允许图形组成的图形，文件组成的图形，函数组成的图形等等。根据定义，图形是节点（顶点）以及已识别的节点对（称为边，链接等）的集合。边的元组可以是 2 元组节点，也可以是 3 元组：在 2 个节点后跟边的属性字典，如。诸如权重、标签、颜色或任何您喜欢的 Python 对象之类的属性都可以附加到图形、节点或边上。)对象，例如，文本字符串、图像、XML对象、另一个图、自定义节点对象等。

2024-01-15 15:05:44 2621 1

原创社交网络学习笔记1——图的基本概念

无向图无向图2. 有向图。

2024-01-11 16:08:06 1804

原创 PrestoSQL(trino)和Hive SQL的日期格式转换对比

【代码】PrestoSQL(trino)和Hive SQL的日期格式转换对比。

2023-11-08 15:41:51 1193

原创 KNN算法及其应用

假如一套房子打算出租，但不知道市场价格，可以根据房子的规格（面积、房间数量、厕所数量、容纳人数等），在已有数据集中查找相似（K近邻）规格的房子价格，看别人的相同或相似户型租了多少钱。我们本次用到的数据集是 🏆rent_price，大家可以通过ShowMeAI的百度网盘地址下载。🏆实战数据集下载（百度网盘）：公众号『ShowMeAI研究中心』回复『实战』，或者点击这里获取本文[40]图解机器学习 | KNN算法及其应用房屋出租价格预测数据集⭐ShowMeAI官方GitHub。

2023-09-21 17:53:19 1279

转载机器学习-模型评估方法与准则

主要涉及到对完整数据集不同的有效划分方法，保证我们后续计算得到的评估指标是可靠有效的，进而进行模型选择和优化。

2023-08-09 16:22:40 379

原创 Python数据分析速查手册

1、Pandas速查手册。

2023-04-10 20:40:02 212

原创 SQL窗口函数

SQL支持的窗口函数如下。

2023-04-04 16:24:41 283

原创 PRESTO SQL总结

('month',create_time,end_time),结果是先计算天差后与create_time的月份天数比较，看是否足月。date_trunc日期截取函数，输出结果也为日期型，非常方便与其他日期型函数结合参与运算，如date_diff，date_add，官方文档见图。是varchar类型，date_add与date_trunc函数都是需要date，time类型，不支持字符串格式。var_name)s，调用时使用params参数，格式为params = {'name'：'value'}

2023-03-22 16:51:42 597

原创欠采样（undersampling）和过采样（oversampling）会对模型带来怎样的影响？

欠采样（undersampling）和过采样（oversampling）会对模型带来怎样的影响

2023-01-10 18:06:35 605

原创项目中常用的19条MySQL优化

这样的语句，普通索引是无法满足查询需求的。如果连接方式是inner join，在没有其他过滤条件的情况下MySQL会自动选择小表作为驱动表，但是left join在驱动表的选择上遵循的是左边驱动右边的原则，即left join左边的表名为驱动表。区分in和exists主要是造成了驱动顺序的改变（这是性能变化的关键），如果是exists，那么以外层表为驱动表，先被访问，如果是IN，那么先执行子查询。优化的方法如下：可以取前一页的最大行数的id，然后根据这个最大的id来限制下一页的起点。

2023-01-03 10:40:34 117

原创机器学习实战：信用卡欺诈检测

信用卡欺诈检测

2022-12-22 17:45:39 455

原创 Python基于主成分分析的客户信贷评级

大样本的数据集固然提供了丰富的信息，但也在一定程度上增加了问题的复杂性。如果我们分别对每个指标进行分析，往往得到的结论是孤立的，并不能完全利用数据蕴含的信息。但是盲目的去减少我们分析的指标，又会损失很多有用的信息。所以我们需要找到一种合适的方法，一方面可以，另一方面尽量。变量压缩的方法非常多，但百法不离其中，其实最根本的都是(Primary Component Analysis，下简称PCA)。总的来说降维有两种方法，一种是，另一种是PCA就是一种常见的。

2022-10-18 20:05:24 484

原创 200个查理芒格思维模型---多元思维模型

本文是对查理·芒格200个思维模型的重磅汇总，值得收藏起来反复研读、推敲精进。--------前100个思维模型------------1. 机会成本思维模型机会成本是指为了得到某种东西而所要放弃另一些东西的最大价值；也可以理解为在面临多方案择一决策时，被舍弃的选项中的最高价值者是本次决策的机会成本；还指厂商把相同的生产要素投入到其他行业当中去可以获得的最高收益。2.直觉思维模型又称为直观，通常被描述为，一种不用经过太多思考过程，很快就能出现的直接想法、感觉、信念或者偏好。当我们有某种信仰，但是不确知它的

2022-09-15 11:10:28 901

原创剑指算法code

剑指算法

2022-09-07 12:39:03 199

原创 XGBoost 重要参数(调参使用)

XGBoost 重要参数

2022-09-06 17:22:17 231

原创风控模型师--技术篇

对于普通的决策树，是在所有样本特征中找一个最优特征来做决策树的左右子树划分，而随机森林会先通过自助采样的方法（bootstrap）得到N个训练集，然后在单个训练集上会随机选择一部分特征，来选择一个最优特征来做决策树的左右子树划分，最后得到N棵决策树，对于分类问题，按多数投票的准则确定最终结果，对于回归问题，由多棵决策树的预测值的平均数作为最终结果。交叉验证，就是重复的使用数据，把得到的样本数据进行切分，组合为不同的训练集和测试集，用训练集来训练模型，用测试集来评估模型预测的好坏。

2022-09-06 12:32:17 233

原创机器学习中的特征工程总结

机器学习中的特征工程总结

2022-08-16 13:44:58 190

原创机器学习算法分类知识总结

机器学习算法分类知识总结

2022-08-16 12:43:46 520

原创机器学习综述

机器学习综述

2022-08-16 12:36:48 236

原创社区发现之标签传播算法（LPA）

社区发现之标签传播算法（LPA）

2022-08-16 11:30:58 662

原创 Apriori 算法-如何进行关联规则挖掘

目录1，关联分析2，三个重要概念3，如何寻找频繁项4，Apriori 算法5，Apriori 算法的实现6，总结在数据分析领域有一个经典的故事，叫做“尿布与啤酒”。据说，在美国西部的一家连锁超市发现，很多男人会在周四购买尿布和啤酒。这样超市就可以将尿布与啤酒放在一起卖，便可以增加销售量。“尿布与啤酒”这个案例就属于数据分析中的关联分析，也就是分析数据集中的内在隐含关系。关联分析可以被用于发掘商品与商品之间的内在关联关系，进而通过商品捆绑销售或者相互推荐，来增加商品销量。关联分析除了可以用于零售

2022-06-17 10:47:15 1151

原创金融风控建模评分卡系列：机器学习特征选择方法

在数据维度”泛滥”成灾的现代，如果不对特征进行筛选直接来建模的话不但会造成模型复杂度的提升，增加计算压力，同时也会因为数据的冗余浪费没有必要的数据费用支出。特别是在金融领域内，因为要求对模型的复杂度和可解释性都有很高的要求，所以在建模前的特征选择是及其重要的。因为每个人在建模时的习惯和方式有差别，所以在选择特征筛选方法的时候也会略有差异，以下会列举使用比较多的方法，你可以根据自己的需求进行使用。需特别说明一下特征选择没有固定的标准和尺度，这一部分需要读者根据自己的实际情况进行设计，但是总的宗旨是”降冗余”。

2022-06-17 10:45:20 506

空空如也

空空如也