mysql日期转为周数 select stat_date, weekday(stat_date), if(weekday(stat_date) = 6 , date_add(stat_date, INTERVAL 1 DAY) , date_sub(stat_date, INTERVAL (weekday(stat_date)) DAY) ) from table_namewhere subject_type = '不限'group by stat_date, weekday(stat_da.
定价思考 成本:马先生总结的哇,价格绕着成本上下波动;各方面的成本都要考虑,用材、用人;目前的成本要考虑,未来的成本也要考虑,是否要让目前的价格cover掉;成本多少不确定,可以参照相似品。 供需:供不应求,价格可以定高;反之亦然。 未来能产生的价值:如果交易在未来的收益高,目前价格可以低一点。 本阶段目的:是亏本也要参与价格战、还是大力度优惠也要让交易产生、还是要保障商业收入 竞争对手的价格:...
数据波动归因分析 排除工程原因:数据采集、数据传输、数据统计、数据演示等过程 时间和空间上的定位:从哪天开始有波动、哪个模块上波动比较厉害 结合业务思考外部因素(我们不能影响)的贡献,如重大事件、竞争对手的动作等。 如果是绝对量数据,考虑该绝对量在业务中所处的环节是哪里,其上游是什么,上游数据以及转化率上有哪些波动;整体去观察、同时可以在关键维度上拆分,去观察这两个指标。 如果是相对数据,分别观察分子、分母一起,有了什么样的变化趋势导致咱们的占比数据有了波动;其中占比数据(转化率)可以拆分到多个维度上。...
pandas数据处理函数汇总 获取unique_values:pd.unique(data['col']) 建立透视表格:data.pivot_table(index='date',columns='group_id',values='rate') 排序:data.sort_values(by = ['date', 'group_id']) 分组统计:data[['rate', 'group_id', 'date']].groupby(['group_id']).mean() 筛选样本:data[(data['date'] ..
我掌握的统计学浅谈 随手写。统计学statistics,主要两方面;descriptive statistics,描述性统计和statistical inference,统计推断。 前者基于数据观察,描述数据;后者基于数据观察,得到数据总体相关的一些结论;后者主要包括两个方面,hypothesis testing,假设检验和estimate,估计。 假设检验,通俗讲,就是说我们看到了(抽样、或者仅仅是观察到)这样的数据,这种情况下,总体的参数等于某个值这个假设是否成立、多大置信度上成立、百分之多少的情况下,这个假...
hfds下的文件导入hive表格 目的:每天向hive表格导入hfds下的文件结果:整个文件夹下的文件均能导入到该表格中;不管总文件夹下生成了多少个小文件-- table_name、columns_name、path_name、partition_name需要自己定义create external table -- external 必需`table_name`(`uid` bigint,`freq` double) partitioned by (`dt` string)row format delimite..
hive grouping sets的正确打开方式 -- 为了偷懒想使用grouping sets,但是正确打开该函数,还是有难度的-- 1. 不可以有多个表格相同列名的情况;如果多表格列名相同的,需更改;uid、col_a、col_b都需要改成不同的名字-- 2. 不可以在select之后有表格别名的情况,比如a.col_a_1是不允许的;但是因为列名都不同,没有关系-- 3. select之后用来aggregate(聚合)的字段,不可以进入计算;所以需要新加入col_b_1_1,而不是直接使用 col_b_1-- 4. tips:如果不想有聚.
特征处理:least frequent value 代码实现 训练集df_train, 测试集df_test离散型特征集cat_features = [a, b, c, d, e, f, g]策略:"unseen labels": df_test里的未见的离散型特征的value值请取代成 df_train里相同特征里的最不常见的值 least frequent value代码实现:import pandas as pdimport numpy as npdf_train = pd.DataFrame([['a', 'b', 'a', 'a',
10 simple and useful hive functions you should know first 1. show databases;Usually your tables are stored in some databases and with this line of code, you could get the names of the databases you have access to.And all your sql or hive codes should end w...
python排序、得出序号各类方法大全 numpy pandas 整理了一下一行数据的排序和得出序号的各类方法,包括正序和倒序。当然还有pandas包的sort_value和sort_index两个method没有包含在这里。如果是多维的数据,需要将axis=0或者1包含进去。import numpy as npimport pandas as pd# ================================================...
python 画图 2维和3维图上加点 matplotlib 有时候可能需要在做好的图上加入一些特别的点,方法如下。import matplotlib as mplimport matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3D# 3维图上加(1,1,1)点ax = plt.subplot(111, projection='3d')ax.plot([1, ],[1,...
python(pandas)分为点,多个分为点 分为点的函数是pandas中的quantile。如果dataframe的名字是df,那么df.quantile?就可以看到函数的解释。如果后面是一个数字,就是一个分为点;如果要多个分为点,那么要加入一个array。 # 假设df是dataframe名字df.quantile(0.5)#df各个列的中位数数据df.quantile([0,25,0.5,0.75])#...
基尼系数近似计算:sql (hive)实现 简单高效 通过近似的方法,如何在sql中计算基尼系数。如何在python中实现基尼系数计算的两种方法,可以查看我的另一篇文章。两篇文章取数相同,可以结合去看。如果想加深对基尼系数计算的逻辑:可查看文章http://www.cnblogs.com/longwind09/p/8047539.html。本文中采用的近似方法,如何建立近似计算公式、如何简化推导公式可查看文章,本文基于这篇文章进行注...
基尼系数计算的两种方法:python实现 简单高效 使用两种方法,通过python计算基尼系数。在sql中如何计算基尼系数,可以查看我的另一篇文章。两篇文章取数相同,可以结合去看。文章中方法1的代码来自于:(加入了一些注释,方便理解)。为精确计算。如果对于基尼系数概念不太清楚,可以看原文的第一部分。http://www.cnblogs.com/longwind09/p/8047539.html方法2和3借鉴资料:方法2和3...