Python&数据分析
文章平均质量分 72
Python的基础语法以及在数据分析领域的引用分享。
斯凯利.瑞恩
这个作者很懒,什么都没留下…
展开
-
Python信贷风控模型:梯度提升Adaboost,XGBoost,SGD, GBOOST, SVC,随机森林, KNN预测金融信贷违约支付和模型优化 附数据代码
保持两者之间的平衡。从上图可以明显看出,与其他模型相比,Adaboost和XGboost花费的时间少得多,而其他模型由于SVC花费了最多的时间,原因可能是我们已经将一些关键参数传递给了SVC。因此,我们已经看到,调整后的Adaboost的准确性约为82.95%,并且在所有其他性能指标(例如F1分数,Precision,ROC和Recall)中也取得了不错的成绩。2005年9月的还款状态(-1 =正常付款,1 =延迟一个月的付款,2 =延迟两个月的付款,8 =延迟八个月的付款,9 =延迟9个月以上的付款)原创 2024-11-08 00:55:30 · 969 阅读 · 0 评论 -
Python决策树、随机森林、朴素贝叶斯、KNN(K-最近邻居)分类分析银行拉新活动挖掘潜在贷款客户附数据代码
最近我们被客户要求撰写关于银行拉新活动的研究报告,包括一些图形和统计输出。项目背景:银行的主要盈利业务靠的是贷款,这些客户中的大多数是存款大小不等的责任客户(存款人)。银行拥有不断增长的客户该银行希望增加借款人(资产客户),开展更多的贷款业务,并通过贷款利息赚取更多利润。因此,银行希望将负债的客户转换为个人贷款客户。(同时保留他们作为存款人)。该银行去年针对负债客户开展的一项活动显示,成功实现了9%以上的成功转化率。该部门希望建立一个模型,来帮助他们确定购买贷款可能性更高的潜在客户。原创 2024-11-07 20:59:02 · 1342 阅读 · 0 评论 -
银行信贷风控专题:Python、R 语言机器学习数据挖掘应用实例合集:xgboost、决策树、随机森林、贝叶斯等
原创 拓端研究室全文链接:https://tecdat.cn/?p=38026本银行信贷风控专题合集将通过代码和数据案例深入探讨这些金融场景中的问题与解决方案,通过对数据的深入分析、模型的构建与优化,为金融机构提供有效的风险管控策略,以促进金融市场的稳定与健康发展。原创 2024-11-07 20:58:24 · 764 阅读 · 0 评论 -
Oracle练习题
【代码】Oracle练习题。原创 2024-07-17 17:59:53 · 333 阅读 · 0 评论 -
SQL实战测试
*张三,王五为 ****组,李四,赵六为 **原创 2024-10-24 16:56:01 · 458 阅读 · 0 评论 -
利用pandas读取格式不规范的Excel文件
pandas很容易将Excel文件读取为DataFrame,但是在现实中,Excel文件里面的数据格式往往是不规范的,在那些数据分散在不同Sheet的情况下,就需要自定义读取数据的方式,这篇文章将讨论如何用pandas和openpyxl读取这类格式的Excel文件,将里面的数据转换为DataFrame以便进一步的分析工作。翻译 2024-08-07 13:05:14 · 220 阅读 · 0 评论 -
基于pandas数据清洗
【代码】基于pandas数据清洗。原创 2024-07-18 10:34:28 · 1006 阅读 · 0 评论 -
python求解常见的最优化问题
多变量最优化问题:彩电商准备推出两种产品,19寸彩电,建议价格339美元(成本195美元),21寸彩电,建议价格399美元(成本225美元),固定成本400000美元,已知每售出一台彩电,会导致彩电价格下降1美分,而且每售出一台19寸彩电,会导致21寸彩电下降0.4美分;每售出一台21寸彩电,会导致19寸彩电下降0.3美分,请问每台彩电应该生产多少台才能达到最大收益。原创 2024-07-17 12:07:06 · 1922 阅读 · 0 评论 -
Scipy
SciPy是一个建立在Python的NumPy扩展上的数学算法和便利函数的集合。它通过为用户提供操作和可视化数据的高级命令和类,为交互式Python会话增加了巨大的力量。有了SciPy,交互式Python会话就变成了一个可以与MATLAB、IDL、Octave、R-Lab和SciLab等系统相媲美的数据处理和系统原型设计环境。以Python为基础的SciPy的另一个好处是,这也使得一种强大的编程语言可以用于开发复杂的程序和专门的应用程序。原创 2024-07-17 12:05:52 · 815 阅读 · 0 评论 -
Pandas映射&分组聚合
1.使用groupby 分组后,也可以使用transform和apply提供自定义的函数实现更多的运算。4.transform 和 apply 也可以传入一个 lambda 表达式。3.transform 和 apply 都会进行运算,在其中传入函数即可。原创 2024-07-17 10:14:45 · 951 阅读 · 0 评论 -
标准化与归一化
可以看出归一化比标准化方法产生的标准差小,使用归一化来缩放数据,则数据将更集中在均值附近。这是由于归一化的缩放是“拍扁”统一到区间(仅由极值决定),而标准化的缩放是更加“弹性”和“动态”的,和整体样本的分布有很大的关系。所以归一化不能很好地处理离群值,而标准化对异常值的鲁棒性强,在许多情况下,它优于归一化。(3)如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响。(2)如果数据较为稳定,不存在极端的最大最小值,用归一化。(1)如果对输出结果范围有要求,用归一化。原创 2024-07-17 01:16:13 · 344 阅读 · 0 评论 -
DataFrame的级联&合并操作
【代码】DataFrame的级联&合并操作。原创 2024-07-17 10:08:16 · 562 阅读 · 0 评论 -
Python爬虫
将前5页内容保存在数据库中,表名stock_new,除选中字段外还要加入id和created_time(yyyy-mm-dd)字段。东财爬取新股上市内容。688开头的为科创板。8或4开头的为北交所。原创 2024-07-16 23:56:36 · 843 阅读 · 0 评论 -
Python数据分析笔记 1
【代码】Data_analysis1。原创 2024-07-17 09:42:33 · 191 阅读 · 0 评论 -
Python数据分析笔记 2
【代码】Data_analysis2。原创 2024-07-17 09:47:46 · 199 阅读 · 0 评论 -
异常值检测与预测
前言异常检测的场景很多,例如硬件的故障检测、流量的异常点的检测等场景。这篇博客我们针对的是时间序列的异常检测。时间序列异常的检测算法有很多,业界比较流行的比如普通的统计学习方法–3σ原则,它利用检测点偏移量来检测出异常。比如普通的回归方法,用曲线拟合方法来检测新的节点和拟合曲线的偏离程度,甚至有人讲CNN和RNN技术应用到异常点的检测。通过普通的阈值来检测流量异常的方法效果比较差,本篇文章提出了一种新的检测算法,下面将重点介绍我们在实践过程中的经验。原创 2024-07-17 01:17:37 · 769 阅读 · 0 评论 -
Python数据分析笔记 3
【代码】Data_analysis3。原创 2024-07-17 09:49:06 · 779 阅读 · 0 评论 -
Python数据分析笔记 4
【代码】Data_analysis4。原创 2024-07-17 09:56:26 · 1367 阅读 · 0 评论 -
Python数据分析笔记 5
【代码】Data_analysis5。原创 2024-07-17 09:57:40 · 220 阅读 · 0 评论
分享