自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 资源 (1)
  • 收藏
  • 关注

原创 03_Case学习:食物delivery问题

Case学习:食物delivery问题比如uber送餐需要推荐好拿到单子的地区推荐了好的area之后怎么决定driver的数量呢

2020-06-01 10:48:08 354

原创 02_Case学习:异常点探查思路笔记

Case学习:异常点探查High Level FeaturesModel怎么建立一个异常点探查系统来找到内幕交易 (Insider trading transaction)High Level FeaturesModel

2020-06-01 07:53:52 337

原创 01_Case学习:亚马逊Prime的用户增长问题思路笔记

Case学习:亚马逊Prime的用户增长问题对于亚麻得growth team来说一个大的问题就是客户留存率(retention rate)。 现在DS组合engineering组一起合作build一个给选中的2%的prime users的折扣系统。作为DS需要解决一下两个问题:User Targeting: 在existing的prime user中找到我们需要给折扣的2%的prime user。提供quantitative的分析来增加客户留存率一般的ML workflow是,所以大概有以下几步

2020-06-01 07:27:18 390

原创 12_商业实战第七章学习笔记PartI:不平衡数据处理

商业实战第六章学习笔记PartI:不平衡数据处理什么是不平衡数据常用处理方法抽样欠采样过采样什么是不平衡数据常用处理方法抽样欠采样过采样

2020-05-25 13:28:07 282

原创 10_商业实战第六章学习笔记PartI:决策树

商业实战第六章学习笔记PartI:决策树ID3决策树C4.5决策树的核心问题有两个。该按什么样的次序来选择变量(属性)最佳分离点(连续的情形)在哪儿ID3决策树ID3的缺点C4.5

2020-05-25 13:17:31 277

原创 11_商业实战第六章学习笔记PartII:神经网络

商业实战第六章学习笔记PartII:神经网络感知器BP神经网络原理概述详述BP总结局限性改进感知器BP神经网络原理概述详述BP总结局限性改进

2020-05-25 13:05:01 563

原创 09_商业实战第五章学习笔记PartIII:逻辑回归

商业实战第五章学习笔记PartIII:逻辑回归优势比(Odds Ratios)结果的概率 vs 结果的发生比逻辑回归模型模型表现优劣的评估成对比较 (C-statistics)ROC优势比(Odds Ratios)结果的概率 vs 结果的发生比逻辑回归模型模型表现优劣的评估成对比较 (C-statistics)ROC...

2020-05-25 04:54:33 302

原创 08_商业实战第五章学习笔记PartII:凸优化

商业实战第五章学习笔记PartII:凸优化导数凸函数无约束凸优化问题求解梯度下降方法牛顿法有约束凸优化的优化问题求解导数凸函数无约束凸优化问题求解梯度下降方法牛顿法有约束凸优化的优化问题求解...

2020-05-25 04:40:51 200

原创 07_商业实战第五章学习笔记PartI: 参数估计

商业实战第五章学习笔记PartI: 参数估计统计学推断的基本问题参数估计的类型矩估计极大似然估计模型调优KNN统计学推断的基本问题参数估计的类型矩估计极大似然估计模型调优KNN...

2020-05-25 03:58:39 192

原创 06_商业实战第四章学习笔记Part II:线性回归价值预测

商业实战第四章学习笔记Part II:线性回归价值预测简单线性回归的估计多元线性回归多元线性回归的变量筛选向前选择后向消元逐步选择查看残差图强影响点分析多重共线性分析线性模型流程数值预测评估原理正则化方法解决共线性的方法岭回归Lasso两者比较与弹性网络简单线性回归的估计多元线性回归多元线性回归的变量筛选向前选择后向消元逐步选择查看残差图强影响点分析多重共线性分析线性模型流程数值预测评估原理正则化方法解决共线性的方法岭回归Lass

2020-05-25 03:24:09 197

原创 05_商业实战第四章学习笔记Part I:参数估计和统计推断

商业实战第四章学习笔记Part I:参数估计和统计推断点估计置信区间均值的标准误差和置信区间假设检验的两类错误t检验两变量关系检验方法综述两独立样本t检验检验方差齐性的F检验相关分析相关系数的计算相关系数的检验卡方检验列联表点估计置信区间样本的变异来自于抽样的偏差。均值的标准误差和置信区间假设检验的两类错误t检验两变量关系检验方法综述两独立样本t检验检验方差齐性的F检验相关分析相关系数的计算相关系数的检验卡方检验列联表...

2020-05-25 00:51:48 231

原创 04_商业实战第三章学习笔记Part 2:数据清理和整合

商业实战第三章学习笔记Part 2:数据清理和整合Select数据查询语句使用嵌套语句(子查询)完成发现数据问题类型 (数据清洗)处理错误值发现缺失值单变量离群值发现盖帽法处理分箱法Select数据查询语句使用嵌套语句(子查询)完成发现数据问题类型 (数据清洗)处理错误值发现缺失值单变量离群值发现盖帽法处理指的就是离群值归于最小最大范围分箱法...

2020-05-25 00:24:22 156

原创 03_商业实战第三章学习笔记Part I:描述性统计分析

商业实战第三章学习笔记:描述性统计分析和数据整合清理连续数据的位置描述连续变量的分布形态-偏态与峰度正态分布其它常见连续分布形式描述统计的总结图表第三章主要介绍描述性统计分析和数据整合清理连续数据的位置描述连续变量的分布形态-偏态与峰度正态分布其它常见连续分布形式描述统计的总结图表...

2020-05-24 13:18:18 282

原创 02_商业实战第二章学习笔记:Python语言编程

商业实战第二章学习笔记:Python语言编程Python 日期列表元祖集合列表、元组、集合、字典的互相转换列表生成式第二章主要是介绍了Python的用法。Python 日期列表元祖集合列表、元组、集合、字典的互相转换列表生成式...

2020-05-24 12:57:05 200

原创 01_商业实战第一章学习笔记:数据科学基本概念和案例

商业实战第一章学习笔记:数据科学基本概念和案例数据科学的运用场景数据科学家的角色![在这里插入图片描述](https://img-blog.csdnimg.cn/2020052412352381.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L295d3c3MTA=,size_16,color_FFFFFF,t_70)数据科学家的能力数理统计技术机器学

2020-05-24 12:43:44 304

原创 03_集成学习(Ensemble Learning)里的堆叠(Stacking)

集成学习(Ensemble Learning)里的堆叠堆叠是我们将要学习的第二种集成学习技术。与投票一起,它属于非生成方法类,因为它们都使用经过单独训练的分类器作为基础学习器。元学习是广义的机器学习术语。它具有多种含义,但通常需要将元数据用于特定问题才能解决。它的应用范围从更有效地解决问题到设计全新的学习算法,这是一个正在发展的研究领域。堆叠是元学习的一种形式。主要思想是,我们使用基础学习器来生成问题数据集的元数据,然后使用另一个称为元学习器的学习器来处理元数据。基础学习器被认为是0级学习器,而元学习器被

2020-05-24 11:56:29 5071

原创 02_集成学习(Ensemble Learning)里的投票

集合学习(Ensemble Learning)里的投票Hard/Soft Voting实现先加载模块加载乳腺癌的数据硬投票的实现 (不用sklearn自带的函数)硬投票的实现 (用sklearn自带的函数)软投票的实现 (用sklearn自带的函数)在所有集成学习方法中,最直观的是多数投票。因为其目的是输出基础学习者的预测中最受欢迎(或最受欢迎)的预测。多数投票是最简单的集成学习技术,它允许多个基本学习器的预测相结合。与选举的工作方式类似,该算法假定每个基础学习器都是投票者,每个类别都是竞争者。为了选出竞

2020-05-24 10:17:02 1705

原创 01_集成学习(Ensemble Learning)简介

集合学习(Ensemble Learning)简介集成学习涉及多种技术的组合,这些技术允许称为基础学习者(或有时称为弱学习者)的多个机器学习模型合并其预测,并在给定各自的输入和输出的情况下输出单个最佳预测。集成学习旨在解决偏差和方差问题。通过组合许多模型,我们可以减少整体误差,同时保留各个模型的复杂性。正如我们前面所看到的,每个模型误差都有一定的下限,这与模型的复杂性有关。此外,由于初始条件,超参数和其他因素,我们提到相同的算法可以产生不同的模型。通过组合不同的不同模型,我们可以减少组的预期误差,而每个模

2020-05-24 09:12:53 552

原创 04_美国医疗保健行业的医疗分析类别介绍

美国医疗保健行业的医疗分析类别介绍医疗保健中有数百个未解决的问题正在通过机器学习和其他分析方法来解决。如果您曾经在Google中输入过“医疗保健中的机器学习”一词,那么您可能已经发现,医疗保健中的机器学习用例浩如烟海。在学术界,出版物关注的问题从预测老年人的痴呆症到预测六个月内发生心脏病发作,再到预测哪种抗抑郁药患者将最有效地应对问题。我们应该如何选择要关注的问题来解决呢?本章我来简单的对这些问题做介绍和分类。在医疗保健中,要解决的问题可以分为四类:人群在医疗保健领域,患者群体是第一个要确定的因素

2020-05-24 07:42:43 1101

原创 03_美国医疗保健行业的数据介绍

美国医疗保健行业的数据介绍在这篇里我会介绍一下医疗保健行业的数据。当患者开始告诉医生他或她的状况时,临床数据收集过程开始。这被称为患者病史,由于医生没有直接观察到它,而是由患者重新叙述,因此患者的故事被称为主观信息。相反,客观信息来自医师,包括医师自身对患者的观察结果,从体格检查,实验室检查和影像学研究到其他诊断程序。主观和客观信息共同构成了临床记录。医疗保健中使用了几种类型的临床笔记。历史和身体状况(H&P)是最详尽,最全面的临床记录。通常是在门诊医生第一次去看病人或病人首次入院时获得的。从患者那里收集

2020-05-24 06:41:58 1508

原创 11_行销(Marketing)里为了制定更好的营销策略的A/B testing

行销(Marketing)里为了制定更好的营销策略的A/B testingLoad the packagesLoad DataData AnalysisStatistical SignificanceA / B测试在各个行业的决策过程中都扮演着至关重要的角色。 A / B测试本质上是一种比较和测试两种不同业务策略的有效性和收益的方法。可以认为这是一个实验,其中在指定的时间段内测试了两个或多个变体,然后评估了实验结果以找到最有效的策略。在完全承诺使用单个选项之前运行A / B测试有助于企业摆脱决策过程中的猜

2020-05-17 11:45:04 1251

原创 10_行销(Marketing)里客户流失

行销(Marketing)里客户流失Load the packagesLoad the dataData Analysis & PreparationTrain & Test Sets客户流失是指客户决定停止使用公司的服务,内容或产品。当我们讨论客户分析时,保留现有客户的成本要比获取新客户便宜得多,而且回头客的收入通常要比新客户高。在竞争激烈的行业中,企业面对许多竞争对手,因此获得新客户的成本甚至更高,因此保留现有客户对于此类企业而言变得越来越重要。客户离开公司有很多原因。客户流失的一些常

2020-05-17 09:14:05 613

原创 09_行销(Marketing)里数据驱动的客户细分

gdrertertr

2020-05-17 08:00:10 740

原创 02_美国医疗保健行业的结构

美国医疗保健行业的结构在这篇里我会介绍一下医疗保健行业的基础,医疗保健付费结构,医疗保健政策以及电子病历 Electronic Medical Records(EMR)的实用和其在基于医疗价值的护理的趋势向的作用以及对医疗保健数据分析的促进。医疗保健行业的基础医疗保健大致可分为住院护理(即在医院等过夜设施中进行的护理, inpatient/emegrency care)和门诊或门诊护理(即通常在医师办公室在同一天进行的护理,outpatient care)。住院护理通常与病情发展至严重状态或需要复

2020-05-17 03:56:52 1510

原创 08_行销(Marketing)预测生命周期价值 (CLV)

行销(Marketing)预测生命周期价值 (CLV)Load PackagesLoad the dataData Clean-UpData AnalysisPredicting 3-Month CLVData PreparationBuilding Sample SetRegression ModelsLinear regressionEvaluation在营销中,对营销活动的预算始终是挑战。我们不想花太多钱而导致ROI下降。但是,我们也不想花费太多,也没有明显的影响或结果。在确定营销策略的预算时,至关

2020-05-16 14:03:42 1009

原创 01_美国医疗保健分析的入门介绍

美国医疗保健分析的入门介绍从这篇开始,我会慢慢来介绍美国的医疗健康领域,以及作为数据科学家我们可以在这个行业做什么。同时会慢慢教大家怎么在医疗保健领域做分析,模型。也会分享一些Case studies,现在比较热门的医疗领域的技术方向。医疗保健分析的定义是使用先进的计算分析技术来改善医疗保健。通常我们使用所谓的“医疗保健三重目标”来衡量医疗服务的有效性:改善结果 (Better Outcomes),降低成本 (Lower Costs) 和确保质量 (Ensure quality)。改善结果 (Bett

2020-05-16 13:02:26 811

原创 07_行销(Marketing)里行销市场参与(Marketing Engagement)的可能性

@[TOC](行销(Marketing)里行销市场参与(Marketing Engagement)的可能性)预测分析是一个从历史数据中分析和提取信息以识别模式并预测未来结果的过程。通常使用大量的统计和机器学习模型来查找数据集中的属性或特征与您要预测的目标变量或行为之间的关系。预测分析可以在许多不同行业中使用和应用。例如,它经常在金融行业中用于欺诈检测,其中训练了机器学习模型以检测和防止潜在的欺诈交易。医疗保健行业还可以从预测分析中受益,以帮助医生进行决策。此外,营销的各个部分也可以从预测分析中受益,例如客

2020-05-14 12:07:05 1597

原创 06_ 行销(Marketing)客户分析:了解客户的行为

行销(Marketing)客户分析:了解客户的行为Load the packagesLoad the packagesAnalytics on Engaged CustomersCustomer Segmentation by CLV & Months Since Policy Inception客户分析是一个通过分析客户行为数据来了解和了解客户行为的过程。它的范围从简单的数据分析和可视化到更高级的客户细分和预测分析。然后,可以将通过客户分析获得的信息和见解用于制定营销策略,优化销售渠道以及制定其

2020-05-14 11:27:08 1459

原创 05_行销(Marketing)里推荐合适的产品(Product Recommendation)

行销(Marketing)里推荐合适的产品(Product Recommendation)Load the packagesLoad the dataData PreparationCustomer-Item MatrixUser-based Collaborative FilteringMaking RecommendationsItem-based Collaborative Filtering在这篇文章里,我们将构建产品推荐系统,通过这些产品,我们可以使用针对个人客户量身定制的产品推荐来更好地定位客

2020-05-11 07:19:51 999 1

原创 04_行销(Marketing)中的产品分析 (Product Analytics)

产品分析Load packagesLoad the datasetProduct Analytics我们将切换对客户行为进行分析的方式,并开始讨论如何使用数据科学进行更精细的产品级分析。越来越多的公司(尤其是电子商务企业)对利用数据来了解客户如何与不同产品互动和互动的兴趣和需求不断增加。业已证明,严格的产品分析可以帮助企业改善用户参与度和转化率,从而最终带来更高的利润。在本章中,我们将讨论什么是产品分析以及如何将其用于不同的用例。产品分析是一种从数据中获取见解的方法,这些数据涉及客户如何与所提供的产品互

2020-05-11 06:46:22 1080

原创 03_行销(Marketing)里用决策树来做转换率 (Conversion Rate)预测

行销(Marketing)里用决策树来做转换率 (Conversion Rate)预测Load the packagesLoad the dataData AnalysisEncoding Categorical VariablesFitting Decision TreesInterpreting Decision Tree Model我们在01_行销(Marketing)里的有用的KPI-转换率 (Conversion Rate) 文章中介绍了什么是转换率。在这篇里我还是用银行的数据来演示怎么用决策树

2020-05-11 05:15:39 1368

原创 02_行销(Marketing)里用逻辑回归来找寻顾客参与度后面的原因

行销(Marketing)里用逻辑回归来找寻顾客参与度后面的原因Load packagesGenerate engage categoryEngagement RateEngage By Renew Offer TypeEngage By Sales ChannelTotal Claim Amount DistributionsIncome DistributionsRegression using different featuresAll together in logistic regression

2020-05-11 01:00:47 1436

原创 01_行销(Marketing)里的有用的KPI-转换率 (Conversion Rate)

行销(Marketing)里的有用的KPILoad the packagesLoad the datasetChange category variable to numeric 0 and 1Aggregate Conversion RateConversion Rates by Number of CampaignsConversion Rates by AgeCreate Age GroupsConversion Rate by Age GroupConversions vs. Non-Convers

2020-05-10 23:53:11 3295

Data_Quality.jpeg

一张总结怎么做data quality检验的原则和指导的图。这个可以从多个方面指导我们当面对raw data时候怎么做QA

2020-04-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除