
DataScience
基于机器学习和深度学习算法的数据科学
一个处女座的程序猿
人工智能硕博生,拥有十多项发明专利(6项)和软件著作权(9项),多个国家级证书(2个国三级、3个国四级),先后获得国内外“人工智能算法”竞赛(包括国家级、省市级等,一等奖5项、二等奖4项、三等奖2项)相关证书十多个,以上均以第一作者身份,并拥有省市校级个人荣誉证书十多项。正在撰写《人工智算法最新实战》一书,目前已37万字。
展开
-
DataScience&ML:金融科技领域之迁徙率(Flow Rate)表的简介、案例应用之详细攻略
DataScience&ML:金融科技领域之迁徙率的简介、案例应用之详细攻略金融科技领域之迁徙率的简介、案例应用 贷款迁徙率,经济学领域术语,计算方法为期初正常类贷款向下迁徙金额/(期初正常类贷款余额-期初正常类贷款期间减少金额)×100%。(1)、概念定义T1、先设置观察期,再看表现推荐文章:https://zhuanlan.zhihu.com/p/81027037T2、只看每个月的的账户在下个月的表现 概念定义 ...原创 2022-05-15 23:32:20 · 816 阅读 · 0 评论 -
BigData:数据中台相关术语概念简介—数据域/业务过程/业务域/指标字典/指标类型/原子指标/派生指标/度量/维度/维度属性/时间周期/修饰词/修饰类型等之详细攻略
BigData:数据中台相关术语概念简介—数据域/业务过程/业务域/指标字典/指标类型/原子指标/派生指标/度量/维度/维度属性/时间周期/修饰词/修饰类型等之详细攻略目录数据域/业务过程/业务域/指标字典/指标类型/原子指标/派生指标/度量/维度/维度属性/时间周期/修饰词/修饰类型等数据域/业务过程/业务域/指标字典/指标类型/原子指标/派生指标/度量/维度/维度属性/时间周期/修饰词/修饰类型等 名词 解释 数据域原创 2022-05-08 23:24:56 · 1343 阅读 · 0 评论 -
BigData:数仓/数据仓库的定义、特点、意义之详细攻略
BigData:数仓/数据仓库的定义、特点、意义之详细攻略目录数仓/数据仓库的定义、特点、意义数仓/数据仓库的定义、特点、意义 定义 数据仓库始于20世纪80年代中期。由数据仓库之父 W.H Inmon在1991年出版的“Building the Data Warehouse”(《数据仓库》)一书中提出了准确而又广泛被大家接受的定义。数仓是面向主题的、集成的、相对稳定的、随时间变化的用于支持管理决策的数据集合。 其实本质上,数仓还是原创 2022-05-08 23:16:49 · 1690 阅读 · 0 评论 -
BigData:数据中台的简介、架构、演进史、意义、案例之详细攻略
BigData:数据中台的简介、架构、演进史、意义、案例之详细攻略目录BigData:数据中台的简介、架构、演进史、意义、案例之详细攻略数据中台架构数据中台的演进史中台的意义(举例解释)中台建设的本质理解中台(举例解释)架构层面理解中台中台解决方案的组成 = 能力输出+标准化中间件BigData:数据中台的简介、架构、演进史、意义、案例之详细攻略数据中台是技术的概念,更是企业管理的概念,居于前台和后台之间,是企业级的数据共享、能力复用平台。数据中台通过原创 2022-05-08 23:12:30 · 1789 阅读 · 0 评论 -
DataScience:机器学习中特征工程之WOE编码—离散变量编码(有监督)
DataScience:机器学习中特征工程之WOE编码—离散变量编码(有监督)目录特征工程之WOE编码—离散变量编码(有监督)(1)、什么是WOE编码(2)、案例理解WOE编码结论与总结(3)、WOE编码技术的深度思考(4)、为什么选择采用WOE编码?(5)、WOE编码的优势特征工程之WOE编码—离散变量编码(有监督)在建模前,我们需要把原始的值转化成WOE值才能使得模型效果好。 提出问题 怎样对字段的每个分原创 2022-04-17 23:42:19 · 1422 阅读 · 0 评论 -
DataScience&ML:金融科技领域之风控的简介、类别、案例应用之详细攻略
DataScience&ML:金融科技领域之风控的简介、类别、案例应用之详细攻略目录金融科技领域之风控的简介金融科技领域之风控的类别1、信贷风控1.1、贷款1.2、信用卡金融科技领域之风控的案例应用1、定义目标变量(good/bad)2、特征构建思路金融科技领域之风控的简介 风控,顾名思义,风险控制。风控包含了风险管理和内部控制,但在不同类型的企业中,风控的管理及控制的领域方向也会有所不同。风险可以分为信用风险、市场...原创 2022-04-17 23:33:44 · 1022 阅读 · 0 评论 -
ML之ME/LF:机器学习中回归预测模型评估指标之“调整的R2”的简介、原理、代码实现之详细攻略
ML之ME/LF:机器学习中回归预测模型评估指标之“调整的R2”的简介、原理、代码实现之详细攻略目录回归预测模型中常用的评估指标“调整的R2”的简介回归预测模型中常用的评估指标“调整的R2”的原理回归预测模型中常用的评估指标“调整的R2”的代码实现回归预测模型中常用的评估指标“调整的R2”的简介R2是回归平方和与总平方和的比值。根据定义,它就是反应了回归方程对y的解释能力。在它基础上,又派生出一个调整确定系数,是因为在多元线性回归方程中,自变量个数的增加会引起余差平.原创 2022-03-13 23:57:38 · 1584 阅读 · 0 评论 -
ML之catboost:基于自定义数据集利用catboost 算法实现回归预测(训练采用CPU和GPU两种方式)
ML之catboost:基于自定义数据集实现回归预测目录基于自定义数据集实现回归预测输出结果# T1、训练采用CPU# T2、训练采用GPU实现代码基于自定义数据集实现回归预测输出结果# T1、训练采用CPU0: learn: 7.9608417 total: 50.2ms remaining: 1.46s1: learn: 7.7618206 total: 50.5ms remaining: 707ms2: learn: 7.5879985 total: 50.原创 2021-04-14 22:19:05 · 756 阅读 · 0 评论 -
DataScience:基于GiveMeSomeCredit数据集利用特征工程处理、逻辑回归LoR算法实现构建风控中的金融评分卡模型
DataScience:基于GiveMeSomeCredit数据集利用特征工程处理、逻辑回归LoR算法实现构建风控中的金融评分卡模型目录基于GiveMeSomeCredit数据集利用特征工程处理、逻辑回归LoR算法实现构建风控中的金融评分卡模型1、加载数据集2、特征工程:数据分析与处理# 3、逻辑回归建模# 4、模型推理基于GiveMeSomeCredit数据集利用特征工程处理、逻辑回归LoR算法实现构建风控中的金融评分卡模原创 2022-03-13 23:49:08 · 2087 阅读 · 0 评论 -
DataScience:风控场景之金融评分卡模型的构建(逻辑回归)&开发(转评分卡)、使用过程(线上实现)之详细攻略
DataScience:风控场景之金融评分卡模型的构建(逻辑回归)&开发(转评分卡)、使用过程(线上实现)之详细攻略目录风控场景之金融评分卡模型的构建(逻辑回归)&开发(转评分卡)、使用过程(线上实现)风控场景之金融评分卡模型的构建(逻辑回归)&开发(转评分卡)、使用过程(线上实现)2.1、数据获取/数据观察/样本选取数据获取T1、公司本身的数据例如用户的年龄,户籍,性别,收入,负债比,在本机构的借款和还款行为等;T2、第三方机构的数据如用户在其他原创 2022-03-09 22:56:08 · 854 阅读 · 0 评论 -
DataScience:风控场景之金融评分卡模型的简介、构建(逻辑回归)&开发(转评分卡)、使用过程(线上实现)之详细攻略
DataScience:风控场景之金融评分卡模型的简介、构建(逻辑回归)&开发(转评分卡)、使用过程(线上实现)之详细攻略目录逻辑回归之金融评分卡模型的简介、构建、开发、使用过程逻辑回归之金融评分卡模型的简介、构建、开发、使用过程1、金融评分卡模型的简介 风控顾名思义就是风险控制,指风险管理者采取各种措施和方法,消灭或减少风险事件发生的各种可能性,或风险事件发生时造成的损失。在金融风控领域,众所周知的应该是评分卡(scorecard)。 评分卡原创 2022-03-02 00:19:57 · 4816 阅读 · 0 评论 -
AI: 企业数字化转型的简介、发展以及未来趋势
目录企业数字化转型的简介、发展以及未来趋势数字化转型与腾飞企业数字化转型的十大发展趋势企业数字化转型的简介、发展以及未来趋势数字化转型与腾飞 IDC对数字化转型定义:数字化转型是利用数字化技术(例如云计算、大数据、人工智能、物联网、区块链等)和能力来驱动组织商业模式创新和商业生态系统重构的途径和方法,即是数字化转型。其目的是实现企业业务的转型、创新、增长。 数字化转型的企业的理想情况:企业内/外部的所有交互均是基于数据...原创 2022-02-20 00:47:04 · 8729 阅读 · 0 评论 -
ML:MLOps系列讲解之系列知识解读全貌
ML:MLOps系列讲解之系列知识解读全貌导读:您将了解如何使用机器学习,了解需要管理的各种变更场景,以及基于ml的软件开发的迭代性质。最后,我们提供了MLOps的定义,并展示了MLOps的发展。目录ML:MLOps系列讲解之系列知识解读全貌1、MLOps的定义与发展—你为什么可能想使用机器学习1.1、Deployment GapML部署的差距1.2、Scenarios of Change That Need to be Managed需要管理的变化的场景1.3、MLOps原创 2022-02-09 20:16:14 · 9836 阅读 · 0 评论 -
ML:MLOps系列讲解之《MLOps的State(工具和框架)》解读
ML:MLOps系列讲解之《MLOps的State(工具和框架)》解读目录MLOps系列讲解之《MLOps的State(工具和框架)》解读9、MLOps的State(工具和框架)MLOps系列讲解之《MLOps的State(工具和框架)》解读9、MLOps的State(工具和框架)本部分介绍了管理 ML工件并涵盖整个机器学习周期的软件工具和框架。在将任何机器学习模型投入生产之前,需要许多实验周期来确定正确的 ML模型以实现业务目标。这个实验阶段在任何ML项目中都增原创 2022-02-09 19:57:23 · 3585 阅读 · 0 评论 -
ML:MLOps系列讲解之《MLOps Stack Canvas堆栈画布之MLOps Stack Canvas&CRISP-ML(Q)》解读
ML:MLOps系列讲解之《MLOps Stack Canvas堆栈画布之MLOps Stack Canvas&CRISP-ML(Q)》解读MLOps系列讲解之《MLOps Stack Canvas堆栈画布之MLOps Stack Canvas&CRISP-ML(Q)》解读原创 2022-02-09 00:39:40 · 1259 阅读 · 0 评论 -
ML:MLOps系列讲解之《MLOps Stack Canvas堆栈画布》解读
ML:MLOps系列讲解之《MLOps Stack Canvas堆栈画布》解读目录MLOps系列讲解之《MLOps Stack Canvas堆栈画布》解读7、MLOps Stack Canvas堆栈画布7.1、MLOps Stack Canvas7.2、Documenting MLOps Architecture记录MLOps架构7.3、MLOps Maturity LevelMLOps 成熟度级别7.4、Conclusion 结论7.5、Ackno...原创 2022-02-09 00:22:14 · 1091 阅读 · 0 评论 -
ML:MLOps系列讲解之《CRISP-ML (Q)ML生命周期过程—了解机器学习开发的标准过程模型—业务和数据理解→数据工程(数据准备)→ML模型工程→评估ML模型→模型部署→模型监控和维护》解读
ML:MLOps系列讲解之《CRISP-ML (Q)ML生命周期过程—了解机器学习开发的标准过程模型—业务和数据理解→数据工程(数据准备)→ML模型工程→评估ML模型→模型部署→模型监控和维护》解读目录MLOps系列讲解之《CRISP-ML (Q)ML生命周期过程—了解机器学习开发的标准过程模型》解读6、CRISP-ML (Q)ML生命周期过程—了解机器学习开发的标准过程模型。6.1、Business and Data Understanding业务和数据理解6.2、Data Eng原创 2022-02-08 10:43:54 · 1601 阅读 · 0 评论 -
ML:MLOps系列讲解之《MLOps原则之监控/“机器学习成绩”系统/可再现性/松散耦合架构(模块化)/基于ML的软件交付指标/MLOps原则和实践的总结》解读
ML:MLOps系列讲解之《MLOps原则之监控/“机器学习成绩”系统/可再现性/松散耦合架构(模块化)/基于ML的软件交付指标/MLOps原则和实践的总结》解读目录MLOps系列讲解之《MLOps原则之监控/“机器学习成绩”系统/可再现性/松散耦合架构(模块化)/基于ML的软件交付指标/MLOps原则和实践的总结》解读5.7、Monitoring 监控5.8、“ML Test Score” System “机器学习成绩”系统5.9、Reproducibility可再现.原创 2022-02-07 19:46:58 · 2039 阅读 · 0 评论 -
ML:MLOps系列讲解之《MLOps原则之测试》解读
ML:MLOps系列讲解之《MLOps原则之测试》解读目录MLOps系列讲解之《MLOps原则之测试》解读5.6、Testing测试5.6.1、Features and Data Tests特征和数据测试5.6.2、Tests for Reliable Model Development可靠模型开发的测试5.6.3、ML infrastructure test机器学习基础设施测试MLOps系列讲解之《MLOps原则之测试》解读5.6、Testing测试图来源:E.B原创 2022-02-07 19:33:52 · 2097 阅读 · 0 评论 -
ML:MLOps系列讲解之《MLOps原则—迭代增量过程/自动化/持续部署/版本控制/实验跟踪/测试/监控/“ML成绩”系统/可再现性/松散耦合架构(模块化)/基于ML的软件交付指标等》解读
ML:MLOps系列讲解之《MLOps原则—迭代增量过程/自动化/持续部署/版本控制/实验跟踪/测试/监控/“ML成绩”系统/可再现性/松散耦合架构(模块化)/基于ML的软件交付指标/MLO等》解读目录MLOps系列讲解之《MLOps原则》解读5.1、Iterative-Incremental Process in MLOps MLOps中的迭代增量过程5.2、Automation自动化5.3、Continuous X持续部署5.4、Versioning版本控制5.5、Exp原创 2022-02-07 19:23:12 · 1508 阅读 · 1 评论 -
High&NewTech:Gartner发布2021年新兴技术成熟度曲线和2022年重要战略技术趋势(信任、增长和变革三大新兴技术趋势)解读
Paper:《Hidden Technical Debt in Machine Learning Systems》翻译与解读《Hidden Technical Debt in Machine Learning Systems》翻译与解读链接 https://papers.nips.cc/paper/2015/file/86df7dcfd896fcaf2674f757a2463eba-Paper.pdf 作者 D. Sculley, Gary Holt,原创 2022-01-20 22:54:08 · 6108 阅读 · 0 评论 -
AI:《Why is DevOps for Machine Learning so Different?—为什么机器学习的 DevOps 如此不同?》翻译与解读
AI:《Why is DevOps for Machine Learning so Different?—为什么机器学习的 DevOps 如此不同?》翻译与解读目录《Why is DevOps for Machine Learning so Different?》翻译与解读Current State of DevOps vs MLOpsWhy So Different?WorkflowsTrainingLive Predictions and Model ServingR原创 2020-03-01 00:59:35 · 4316 阅读 · 0 评论 -
Paper:《Hidden Technical Debt in Machine Learning Systems—机器学习系统中隐藏的技术债》翻译与解读
Paper:《Hidden Technical Debt in Machine Learning Systems—机器学习系统中隐藏的技术债》翻译与解读导读:机器学习系统中,隐藏多少技术债呢?这篇文章以讲述DS整个流程为案例,深刻剖析了DS的长期价值,从长期考虑如何避免维护成本的上升。文章还强调了一点,模型本身再整个产品链中只占很小的一块(虽然时核心模块)。目录《Hidden Technical Debt in Machine Learning Systems》翻译与解读Abstract原创 2018-03-31 11:35:37 · 10948 阅读 · 0 评论 -
Dataset:GiveMeSomeCredit数据集的简介、下载、使用方法之详细攻略
Dataset:GiveMeSomeCredit数据集的简介、下载、使用方法之详细攻略目录GiveMeSomeCredit数据集的简介1、数据集基本描述2、EDA后总结3、数据集基本形状Give Me Some Credit数据集的下载Give Me Some Credit数据集的使用方法GiveMeSomeCredit数据集的简介 银行在市场经济中起着至关重要的作用。他们决定谁可以获得资金,以什么条件,可以做出或打破投资决定。要使...原创 2021-12-27 00:30:02 · 1173 阅读 · 1 评论 -
ML之ME/LF:机器学习中常见模型评估指标/损失函数(LiR损失、L1损失、L2损失、Logistic损失)求梯度/求导、案例应用之详细攻略
ML之ME/LF:机器学习中常见模型评估指标/损失函数(LiR损失、L1损失、L2损失、Logistic损失)求梯度/求导、案例应用之详细攻略目录常见损失函数求梯度案例1、线性回归求梯度2、L2损失函数梯度3、L1正则函数梯度4、Logistic损失梯度常见损失函数求梯度案例1、线性回归求梯度2、L2损失函数梯度3、L1正则函数梯度4、Logistic损失梯度对Logistic回归原创 2019-04-11 23:01:50 · 5921 阅读 · 0 评论 -
DataScience:数据生成之在原始数据上添加小量噪声进而实现构造新数据
DataScience:数据生成之在原始数据上添加小量噪声进而实现构造新数据目录数据生成之在原始数据上添加小量噪声进而实现构造新数据输出结果设计思路数据生成之在原始数据上添加小量噪声进而实现构造新数据输出结果[6.8, 7.0, 7.2, 7.8, 8.0, 8.2, 8.4, 8.6, 8.8, 9.0][7.2, 7.0, 7.0, 7.4, 8.2, 8.0, 8.0, 8.8, 8.8, 9.2][60, ..原创 2021-12-12 21:40:29 · 5070 阅读 · 0 评论 -
ML之FE:对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘
ML之FE:对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘输出结果实现代码...原创 2021-05-10 21:13:01 · 1712 阅读 · 3 评论 -
ML之FE:基于BigMartSales数据集利用Featuretools工具(1个dataframe表结构切为2个Entity表结构)实现自动特征工程之详细攻略
ML之FE:基于BigMartSales数据集利用Featuretools工具实现自动特征工程之详细攻略目录基于BigMartSales数据集利用Featuretools工具实现自动特征工程之详细攻略设计思路输出结果实现代码基于BigMartSales数据集利用Featuretools工具实现自动特征工程之详细攻略设计思路输出结果实现代码...原创 2021-04-12 21:38:46 · 3977 阅读 · 1 评论 -
ML之FE:基于单个csv文件数据集(自动切分为两个dataframe表)利用featuretools工具实现自动特征生成/特征衍生
ML之FE:基于单个csv文件数据集(自动切分为两个dataframe表)利用featuretools工具实现自动特征生成/特征衍生目录基于单个csv文件数据集(自动切分为两个dataframe表)利用featuretools工具实现自动特征生成/特征衍生设计思路1、定义数据集2、DFS设计输出结果feature_matrix_cats_df.csvfeature_matrix_nums.csv基于单个csv文件数据集(自动...原创 2021-04-05 21:56:18 · 3575 阅读 · 7 评论 -
ML之FE:基于load_mock_customer数据集(模拟客户,单个DataFrame)利用featuretools工具实现自动特征生成/特征衍生
ML之FE:基于load_mock_customer数据集(模拟客户,单个DataFrame)利用featuretools工具实现自动特征生成/特征衍生推荐文章ML之FE:基于load_mock_customer数据集(模拟客户)利用featuretools工具实现自动特征生成/特征衍生ML之FE:基于load_mock_customer数据集(模拟客户)利用featuretools工具实现自动特征生成/特征衍生实现1ML之FE:基于load_mo...原创 2021-04-05 12:46:22 · 1715 阅读 · 0 评论 -
ML之FE:基于load_mock_customer数据集(模拟客户)利用featuretools工具实现自动特征生成/特征衍生
ML之FE:基于load_mock_customer数据集(模拟客户)利用featuretools工具实现自动特征生成/特征衍生目录基于load_mock_customer数据集(模拟客户)利用featuretools工具实现自动特征生成/特征衍生设计思路输出结果实现代码推荐文章ML之FE:基于load_mock_customer数据集(模拟客户)利用featuretools工具实现自动特征生成/特征衍生ML之FE:基于load_mock_...原创 2021-04-01 00:22:48 · 1377 阅读 · 1 评论 -
ML之DS:仅需一行代码实现对某字段下的所有数值实现同一机制的改变或转换(比如全部转为str类型/全部取平方值)
ML之DS:仅需一行代码实现对某字段下的所有数值实现同一机制的改变或转换(比如全部转为str类型/全部取平方值)目录仅需一行代码实现对某字段下的所有数值实现同一机制的改变或转换(比如全部转为str类型/全部取平方值)输出结果实现代码仅需一行代码实现对某字段下的所有数值实现同一机制的改变或转换(比如全部转为str类型/全部取平方值)输出结果name objectID ob...原创 2021-03-31 00:38:11 · 7008 阅读 · 6 评论 -
ML之FE:在模型训练中,仅需两行代码实现切分训练集和测试集并分离特征与标签
ML之FE:在模型训练中,仅需两行代码实现切分训练集和测试集并分离特征与标签目录仅需两行代码实现切分训练集和测试集并分离特征与标签输出结果实习代码仅需两行代码实现切分训练集和测试集并分离特征与标签输出结果name objectID objectage objectage02 int64age03 ...原创 2021-03-31 00:35:04 · 7119 阅读 · 7 评论 -
ML之FE:特征工程中的特征拼接处理(常用于横向拼接自变量特征和因变量特征)(daiding)
ML之FE:特征工程中的特征拼接处理(常用于横向拼接自变量特征和因变量特征)目录特征工程中的特征拼接处理(常用于横向拼接自变量特征和因变量特征)输出结果实现代码特征工程中的特征拼接处理(常用于横向拼接自变量特征和因变量特征)输出结果<class 'pandas.core.frame.DataFrame'>RangeIndex: 768 entries, 0 to 767Data columns (total 9 columns): # Colu原创 2021-03-30 19:27:57 · 7252 阅读 · 0 评论 -
Python之pandas:数据类型变换之object、category、bool、int32、int64、float64以及数据类型标准化之详细攻略
Python之pandas:数据类型变换之object、category、bool、int32、int64、float64以及数据类型标准化之详细攻略目录数据类型变换之object、category、bool、int32、int64、float64以及数据类型标准化知识点1、category类型与object类型输出结果实现代码推荐文章Python之pandas:在pandas中创建category类型数据的几...原创 2021-03-29 23:38:45 · 12740 阅读 · 4 评论 -
Python编程语言学习:如何将excel表格内的科学计数法转为常规数值并全部显示?
Python编程语言学习:如何将excel表格内的科学计数法转为常规数值并全部显示?目录如何将excel表格内的科学计数法转为常规数值并全部显示?输出结果实现代码如何将excel表格内的科学计数法转为常规数值并全部显示?输出结果实现代码在Excel表格内,如果数据的数值位数超过11位,将会自动以科学计数法显示。在Excel表格内,最大处理精度为14位数,如果超过14位数值,分界点的数字四舍六入后,后边的均自动变...原创 2021-03-29 23:36:01 · 8494 阅读 · 0 评论 -
Python之pandas:在pandas中创建category类型数据的几种方法之详细攻略
Python之pandas:在pandas中创建category类型数据的几种方法之详细攻略目录在pandas中创建category类型数据的几种方法之详细攻略输出结果实习代码在pandas中创建category类型数据的几种方法之详细攻略T1、直接创建 category类型数据 T2、利用分箱机制(结合max、mean、min实现二分类)动态添加 category类型数据输出结果[NaN, 'medium', 'm...原创 2021-03-29 23:11:42 · 7368 阅读 · 2 评论 -
ML之ME/LF:机器学习之风控业务中常用模型评估指标PSI(人群偏移度指标)的的简介、使用方法、案例应用之详细攻略
ML之ME/LF:机器学习之风控业务中常用模型评估指标PSI(人群偏移度指标)的的简介、使用方法、案例应用之详细攻略目录PSI(稳定度指标)的简介1、如何计算PSI?(1)、PSI计算过程(2)、案例理解—评估特征稳定性(3)、案例理解—评估模型效果2、机器学习中为什么需要PSI—用户群体分布变化时导致模型不稳定3、PSI能干什么?——在机器学习中,本质上就是保证模型稳定性(入模变量保证稳定性+模型分数保证稳定性)(1)、监测特征稳定性(剔除不稳定的变量)—样本外测试原创 2021-03-25 00:22:50 · 13695 阅读 · 3 评论 -
ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件
ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件目录数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件输出结果实现代码数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件输出结果name objectID objectage objectsex ...原创 2021-03-20 00:37:38 · 1539 阅读 · 0 评论 -
Py之pandas:利用pandas工具输出每行的索引值、及其对应的行数据
Py之pandas:利用pandas工具输出每行的索引值、及其对应的行数据目录利用pandas工具输出每行的索引值、及其对应的行数据输出结果实现代码利用pandas工具输出每行的索引值、及其对应的行数据输出结果name objectID objectage objectsex objecthobbey objectdtype: object name ID...原创 2021-03-20 00:25:32 · 14705 阅读 · 6 评论