自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 bootstrap抽样

推断统计是指用样本数量特征推断总体特征 ,在现实生活中,我们只抽取一个样本,计算出一个统计量(样本均值,样本方差,样本比例等)的值,将其作为总体参数的一个估计值,这种方法也称点估计,但是这样做往往不准确,但是我们有了抽样分布的概念,指的是所有估计值的集合,以样本均值为例,由中心极限定理(clt)知,从均值μ\muμ、方差为σ2{\sigma^2}σ2的任意一个总体中抽取样本容量为nnn的样本,当nnn充分大时,样本均值xˉ\bar{x}xˉ的抽样分布渐进服从均值为μ\muμ,方差为σ2n\frac{\s

2021-08-07 19:59:24 8145

原创 信用卡欺诈检测建模分析

1 建模目的信用卡欺诈检测,又叫异常检测。异常检测无非就是正常和异常,这是一个二分类任务,显然正常的占绝大部分,异常的只占很少的比例,我们要检测的就是这些异常的。利用信用卡历史数据进行建模,构建反欺诈模型,预测新的信用卡被盗刷的可能性。2 数据集介绍数据集包含由欧洲人于2013年9月使用信用卡进行交易的数据。此数据集显示两天内发生的交易,其中284807笔交易中有492笔被盗刷。数据集非常不平衡,正例(被盗刷)占所有交易的0.172%。,这是因为由于保密问题,我们无法提供有关数据的原始功能和更多背景信

2021-03-27 22:47:52 4769 1

原创 adventure项目 可视化看板总结

将之前的项目做一下复盘。可视化看板一、项目背景Adventure Works Cycles是AdventureWorks样本数据库所虚构的公司,该公司生产和销售金属和复合材料自行车在全国各个市场。销售方式主要有两种,前期主要是分销商模式,但是2018年公司实现财政收入目标后,2019就开始通过公司自有网站获取线上商户进一步扩大市场。1 客户类型Adventure Works Cycle这家公司的客户主要有两种:个体:这些客户购买商品是通过网上零售店铺商店: 这些是从Adventure Work

2021-03-23 16:48:54 1157

原创 hive练习题(七)

计算客户平均购买一次商品的间隔时间数据ods_sales_orders字段第一步:找出用户第一次下单后的下一笔订单的消费日期知识点:lead函数将用户的下单日期按照从早到晚排序,可以看到最早消费日期为‘2018-12-31’,考虑到有用户只消费了一次,找不到下次订单的消费日期,所以在lead函数中将找不到的值,默认设为‘2018-12-31’,这样在计算两笔订单消费日期的时间跨度时,可以过滤掉只消费过一次的用户。SELECT customer_key,create_date,lead(crea

2020-09-02 17:46:29 304

原创 hive练习题(六)

统计各个省份所属城市下最受欢迎的Top 3产品和其销量(不能出现有null)所需数据表包括订单明细表和每日新增用户表可以看出订单明细表存放的是产品信息,而每日新增用户表存放的是客户信息。所需字段:城市,产品,销量第一步:订单明细表和每日新增用户表连接,并求得每个城市下每个产品的订单量SELECT a.chinese_city AS city ,b.product_key,COUNT(b.sales_order_key) AS sale_amountFROM ods_customer a LE

2020-09-01 17:10:25 516

原创 hive练习题(五)

商品的销售数量Top10,排名需要考虑并列排名的情况数据表ods_sales_orders的前10行第一步: 对统计每个产品的订单量SELECT product_key,COUNT(sales_order_key) AS sale_amount FROM ods_sales_orders GROUP BY product_key第二步:对订单量进行排序知识点:dense_rank()是连续排序,比如有两个第一名时后面仍然跟着第二名SELECT a.product_key AS produc

2020-09-01 16:31:21 229

原创 hive练习题(四)

求用户最先购买的两种子类别产品信息(cpzl_zw),要求拼接成 “用户号-产品1-产品2” 的形式数据表ods_sales_orders的前十行第一步:求出每位客户消费的下一个产品SELECT customer_key, cpzl_zw, row_number() over(partition by customer_key order by create_date) as order_num, lag(cpzl_zw,1) over(partition by

2020-09-01 13:35:54 188

原创 hive练习题(三)

用户号场景访问时间110011400210021401110021402110011402210031403210041404310031400………要求:用户号对应前两个不同场景,场景重复的话选择场景的第一个访问时间,场景号不足两个的输出为止输出结果示例:result1-1001-10022-1002-10033-1003…create table test...

2020-08-31 16:35:20 396

原创 hive练习题(二)计算用户的复购率和回购率

hive练习题(二)计算用户的复购率和回购率数据表ods_sales_orders前10行复购率定义:在某时间窗口内重复消费用户(消费两次及以上的用户)在总消费用户中占比例如,按月作为统计窗口,当前月份购买2次及以上的客户占当前月份所有客户的比例。第一步:计算每位客户在每月的消费次数create table temp1 as SELECT customer_key,DATE_FORMAT(create_date,'YYYY-MM') AS umonth,COUNT(customer_key)

2020-08-31 10:49:11 2537 1

原创 hive练习题(一)

hive练习题(一)数据表ods_sales_orders前10列的数据题目:计算每个用户截止到每月为止的最大交易金额和累计到该月的总交易金额题干分解:每个用户、截止到每月为止的最大交易金额和累计总交易金额第一步:计算每位用户在每月消费的总金额create table temp as select customer_key,DATE_FORMAT(create_date,'YYYY-MM') AS umonth,sum(unit_price) AS usum FROM ods_sales_or

2020-08-30 19:08:31 471

原创 sql留存用户率练习题

sql练习题手机中的相机是深受大家喜爱的应用之一,现在该手机厂商想要分析手机中的应用(相机)的活跃情况,需统计如下数据:某日活跃用户(用户id)在后续的一周内的留存情况(计算次日留存用户数,3日留存用户数,7日留存用户数)指标定义某日活跃用户数,某日活跃的去重用户数。N日活跃用户数,某日活跃的用户数在之后的第N日活跃用户数。N日活跃留存率,N日留存用户数/某日活跃用户数例:登陆时间(20180501日)去重用户数10000,这批用户在20180503日仍有7000人活跃,则3日

2020-07-20 22:25:55 1137

原创 python数据分析[CDNow网站用户消费行为]

数据来源于CDNow网站,是用户在一家CD网站的消费记录。数据集包含的字段user_id:用户IDorder_dt:购买日期order_products:购买产品数order_amount:购买金额导入相关库,加载数据import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom dateti...

2020-04-02 15:59:57 984

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除