elibneh
码龄7年
关注
提问 私信
  • 博客:347,436
    社区:290
    347,726
    总访问量
  • 43
    原创
  • 1,082,741
    排名
  • 50
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 加入CSDN时间: 2018-01-18
博客简介:

henbile的博客

博客描述:
快乐工作,认真生活
查看详细资料
个人成就
  • 获得100次点赞
  • 内容获得34次评论
  • 获得552次收藏
  • 代码片获得467次分享
创作历程
  • 1篇
    2023年
  • 3篇
    2022年
  • 6篇
    2021年
  • 4篇
    2020年
  • 3篇
    2019年
  • 27篇
    2018年
成就勋章
TA的专栏
  • excel
    1篇
  • 随感
    8篇
  • python学习
    23篇
  • pandas
    6篇
  • numpy
    4篇
  • 差别
    1篇
  • 基尼系数
    3篇
  • python
    6篇
  • sql
    8篇
  • hive
    8篇
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

174人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

pyspark learning

【代码】pyspark learning。
原创
发布博客 2023.04.21 ·
143 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

word下划线,间距调大方式

word下划线,间距调大方式
原创
发布博客 2022.04.13 ·
792 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive检查特定分区

hive检查特定分区;show partitions table_name partition(ds = '20220224')
原创
发布博客 2022.03.09 ·
2865 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

pandas根据条件赋值

pandas根据条件赋值:常用条件,多条件并行、是否相等、字符串是否包含、是否为nan等。
原创
发布博客 2022.01.24 ·
8476 阅读 ·
2 点赞 ·
0 评论 ·
20 收藏

mysql日期转为周数

select stat_date, weekday(stat_date), if(weekday(stat_date) = 6 , date_add(stat_date, INTERVAL 1 DAY) , date_sub(stat_date, INTERVAL (weekday(stat_date)) DAY) ) from table_namewhere subject_type = '不限'group by stat_date, weekday(stat_da.
原创
发布博客 2021.12.29 ·
4068 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

基尼系数,excel计算方法

我真的是个计算基尼系数的小能手,在excel、python、hive上都凑齐了。。。excel如下图所示:第一行显示的是,该列标黄色框内的公式。
原创
发布博客 2021.01.30 ·
12927 阅读 ·
4 点赞 ·
0 评论 ·
29 收藏

定价思考

成本:马先生总结的哇,价格绕着成本上下波动;各方面的成本都要考虑,用材、用人;目前的成本要考虑,未来的成本也要考虑,是否要让目前的价格cover掉;成本多少不确定,可以参照相似品。 供需:供不应求,价格可以定高;反之亦然。 未来能产生的价值:如果交易在未来的收益高,目前价格可以低一点。 本阶段目的:是亏本也要参与价格战、还是大力度优惠也要让交易产生、还是要保障商业收入 竞争对手的价格:...
原创
发布博客 2021.01.28 ·
135 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

数据波动归因分析

排除工程原因:数据采集、数据传输、数据统计、数据演示等过程 时间和空间上的定位:从哪天开始有波动、哪个模块上波动比较厉害 结合业务思考外部因素(我们不能影响)的贡献,如重大事件、竞争对手的动作等。 如果是绝对量数据,考虑该绝对量在业务中所处的环节是哪里,其上游是什么,上游数据以及转化率上有哪些波动;整体去观察、同时可以在关键维度上拆分,去观察这两个指标。 如果是相对数据,分别观察分子、分母一起,有了什么样的变化趋势导致咱们的占比数据有了波动;其中占比数据(转化率)可以拆分到多个维度上。...
原创
发布博客 2021.01.28 ·
1965 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

pandas数据处理函数汇总

获取unique_values:pd.unique(data['col']) 建立透视表格:data.pivot_table(index='date',columns='group_id',values='rate') 排序:data.sort_values(by = ['date', 'group_id']) 分组统计:data[['rate', 'group_id', 'date']].groupby(['group_id']).mean() 筛选样本:data[(data['date'] ..
原创
发布博客 2021.01.26 ·
680 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

SQL:从入门到“精通”

SQL:从入门到“精通”
原创
发布博客 2021.01.26 ·
232 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

我掌握的统计学浅谈

随手写。统计学statistics,主要两方面;descriptive statistics,描述性统计和statistical inference,统计推断。 前者基于数据观察,描述数据;后者基于数据观察,得到数据总体相关的一些结论;后者主要包括两个方面,hypothesis testing,假设检验和estimate,估计。 假设检验,通俗讲,就是说我们看到了(抽样、或者仅仅是观察到)这样的数据,这种情况下,总体的参数等于某个值这个假设是否成立、多大置信度上成立、百分之多少的情况下,这个假...
原创
发布博客 2020.10.16 ·
396 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

hfds下的文件导入hive表格

目的:每天向hive表格导入hfds下的文件结果:整个文件夹下的文件均能导入到该表格中;不管总文件夹下生成了多少个小文件-- table_name、columns_name、path_name、partition_name需要自己定义create external table -- external 必需`table_name`(`uid` bigint,`freq` double) partitioned by (`dt` string)row format delimite..
原创
发布博客 2020.07.20 ·
256 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive grouping sets的正确打开方式

-- 为了偷懒想使用grouping sets,但是正确打开该函数,还是有难度的-- 1. 不可以有多个表格相同列名的情况;如果多表格列名相同的,需更改;uid、col_a、col_b都需要改成不同的名字-- 2. 不可以在select之后有表格别名的情况,比如a.col_a_1是不允许的;但是因为列名都不同,没有关系-- 3. select之后用来aggregate(聚合)的字段,不可以进入计算;所以需要新加入col_b_1_1,而不是直接使用 col_b_1-- 4. tips:如果不想有聚.
原创
发布博客 2020.07.20 ·
589 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

特征处理:least frequent value 代码实现

训练集df_train, 测试集df_test离散型特征集cat_features = [a, b, c, d, e, f, g]策略:"unseen labels": df_test里的未见的离散型特征的value值请取代成 df_train里相同特征里的最不常见的值 least frequent value代码实现:import pandas as pdimport numpy as npdf_train = pd.DataFrame([['a', 'b', 'a', 'a',
原创
发布博客 2020.07.18 ·
176 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

10 simple and useful hive functions you should know first

1. show databases;Usually your tables are stored in some databases and with this line of code, you could get the names of the databases you have access to.And all your sql or hive codes should end w...
原创
发布博客 2019.01.31 ·
238 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python排序、得出序号各类方法大全 numpy pandas

整理了一下一行数据的排序和得出序号的各类方法,包括正序和倒序。当然还有pandas包的sort_value和sort_index两个method没有包含在这里。如果是多维的数据,需要将axis=0或者1包含进去。import numpy as npimport pandas as pd# ================================================...
原创
发布博客 2019.01.09 ·
19068 阅读 ·
7 点赞 ·
1 评论 ·
36 收藏

python 画图 2维和3维图上加点 matplotlib

有时候可能需要在做好的图上加入一些特别的点,方法如下。import matplotlib as mplimport matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3D# 3维图上加(1,1,1)点ax = plt.subplot(111, projection='3d')ax.plot([1, ],[1,...
原创
发布博客 2019.01.08 ·
4545 阅读 ·
1 点赞 ·
1 评论 ·
1 收藏

python(pandas)分为点,多个分为点

分为点的函数是pandas中的quantile。如果dataframe的名字是df,那么df.quantile?就可以看到函数的解释。如果后面是一个数字,就是一个分为点;如果要多个分为点,那么要加入一个array。 # 假设df是dataframe名字df.quantile(0.5)#df各个列的中位数数据df.quantile([0,25,0.5,0.75])#...
原创
发布博客 2018.12.26 ·
1988 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

基尼系数近似计算:sql (hive)实现 简单高效

通过近似的方法,如何在sql中计算基尼系数。如何在python中实现基尼系数计算的两种方法,可以查看我的另一篇文章。两篇文章取数相同,可以结合去看。如果想加深对基尼系数计算的逻辑:可查看文章http://www.cnblogs.com/longwind09/p/8047539.html。本文中采用的近似方法,如何建立近似计算公式、如何简化推导公式可查看文章,本文基于这篇文章进行注...
原创
发布博客 2018.11.14 ·
1086 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

基尼系数计算的两种方法:python实现 简单高效

使用两种方法,通过python计算基尼系数。在sql中如何计算基尼系数,可以查看我的另一篇文章。两篇文章取数相同,可以结合去看。文章中方法1的代码来自于:(加入了一些注释,方便理解)。为精确计算。如果对于基尼系数概念不太清楚,可以看原文的第一部分。http://www.cnblogs.com/longwind09/p/8047539.html方法2和3借鉴资料:方法2和3...
原创
发布博客 2018.11.14 ·
4205 阅读 ·
2 点赞 ·
0 评论 ·
21 收藏
加载更多