自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (14)
  • 收藏
  • 关注

原创 tushare 的token设置

1.安装:pip install tushare --upgrade2.注册:https://tushare.pro,如图,复制粘贴即可import pandas as pdimport tushare as ts#a9f08e2376247c3b4c6********************7189153d946c2token= "#a9f08e2376247c3b4c6**...

2019-05-27 09:49:16 6806

原创 pandas库学习基础和经验(二)--重点推荐

1.pandas 中DataFrame使用:数据标准化、数据分组、日期转换、日期格式化、日期抽取2.pandas 中DataFrame使用:记录抽取,随机抽样,记录合并,字段合并,字段匹配,数据的简单计算3.pandas 中DataFrame使用:数据导入\出,重复值处理,缺失数据处理,字段抽取,字段拆分4.pandas 中DataFrame的数据定义,访问,修改,删除,增加,遍历...

2019-05-24 16:39:41 218

原创 pandas中的stack和unstack函数解析

在用pandas进行数据重排时,经常用到stack和unstack两个函数。stack的意思是堆叠,堆积,unstack即“不要堆叠”,我对两个函数是这样理解和区分的。  常见的数据的层次化结构有两种,一种是表格,一种是“花括号”,即下面这样的l两种形式:表格在行列方向上均有索引(类似于DataFrame),花括号结构只有“列方向”上的索引(类似于层次化的Series),结构更加偏向于...

2019-05-24 15:08:25 2312

原创 pandas库学习基础和业务经验(一)--重点推荐

近期用到的函数总结:#分组排序功能import pandas as pddef test_f(df,column,istopn = False,n=1): """ df:数据框 column:为需要对之聚合的列 istopn:返回每一组的第n行数据 """ count = len(df) distinct_count = df[co...

2019-05-22 17:40:13 243

原创 一个文件夹下多个sheet多个excel获取并清洗

#by carson 2019-05-21#函数的定义:获取对应目录下多个带有多个sheet工作薄的excel文件def read_info(inputdir): #文件夹下多个工作薄 sheet_names = ["ALL-ALL","ALL-TM","ALL-TB","PC-ALL","PC-TM","PC-TB","WX-ALL","WX-TM","WX-TB"] #读取当...

2019-05-21 13:46:00 569

原创 hive函数实操大全--重点推荐

把最近学到的博客整理在一起了:相关博客1.一文读懂Hive分析窗口函数(hive做累计、分组、排序、层次等计算)https://blog.csdn.net/abc200941410128/article/details/784089422.hive分层级取数(将多行记录合并为一条):concat_ws ,collect_sethttps://blog.csdn.net/LH09126...

2019-05-14 10:58:06 520

原创 纠正别人博客中的hive问题

因为有业务需求,所以查看了几篇别人的博客,发现有错误的地方:1.http://www.cnblogs.com/mobiwangyue/p/8328758.html2.https://www.jianshu.com/p/51599bab0c00为了验证业务需求的做法,特地模拟了一些假的数据做相关demo,数据如下:1. hive2. show databases;3. us...

2019-05-13 15:50:33 199

原创 SQL优化:hive中的over和各个函数综合应用

1.使用over子句与rows_number()以及聚合函数进行使用,可以进行编号以及各种操作。而且利用over子句的分组效率比group by子句的效率更高。2.在订单表(order)中统计中,生成这么每一条记录都包含如下信息:“所有订单的总和”、“每一位客户的所有订单的总和”、”每一单的金额“#代码如下select customerID,SUM(totalPrice) ov...

2019-05-13 09:22:37 943 1

原创 生意参谋获取数据系列章节

1.生意参谋采集过程中的链接测试工具Sycm Request Test2.生意参谋漏洞之无限“任意店铺”销售数据”查询及一些扩展3.深思淘宝生意参谋改版数据权限减少图片化加密的背后4.关于生意参谋数据采集分析人员,我们的采集程序是否可以使用另一种方式,更不用大改之前所写的代码5.http调用api解密生意参谋DATA6.Excel调用.net生成的DLL解密生意参谋DATA...

2019-05-08 14:24:44 2942 4

原创 业务分析:hive下的分组求占比情况

在业务中与见一个占比情况,做了一个小demo,以供自己参考元数据:实现的形式#方式一with demo as (select cookieid as cookieid,pv as pv,sum(pv) over() as total,pv/sum(pv) over() percentfrom pv_web)select cookieid,sum(p...

2019-05-05 12:58:55 16047 2

销售额占比前十的店铺!

3.月维度!增长幅度大的店铺 降幅大的店铺 上个月有这个月没进前300名的

2019-11-29

pima-indians-diabetes-database-master.zip

皮马印第安人糖尿病数据集下载皮马印第安人糖尿病数据集下载 数据集:pima_indians-diabetes.csv 美国亚利桑那州的⽐马印第安⼈患糖尿病概率极⾼。WHO为此调查了21岁以上 的⼥性患者,并记录了以下信息: 1. 怀孕了⼏次 2. ⾎糖 3. ⾎压 4. ⽪脂厚度 5. 胰岛素 6. 体质指数 7. 糖尿病统 8. 年龄 9. label:是否患病

2019-09-19

户的某个任务完成的#发放优惠券户的某个任务完成的#发放优惠券户的某个任务完成的#发放优惠券

#发放优惠券 游戏解释:当用户A发起某个砍价任务B,分享链接被其他人C.D.E等人点击后砍掉对应的价格(多个用户,用户可发起多个任务) 游戏规则:满70-20 需求:需要知道是第几个人帮某个用户的某个任务完成的#发放优惠券 游戏解释:当用户A发起某个砍价任务B,分享链接被其他人C.D.E等人点击后砍掉对应的价格(多个用户,用户可发起多个任务) 游戏规则:满70-20 需求:需要知道是第几个人帮某个用户的某个任务完成的#发放优惠券 游戏解释:当用户A发起某个砍价任务B,分享链接被其他人C.D.E等人点击后砍掉对应的价格(多个用户,用户可发起多个任务) 游戏规则:满70-20 需求:需要知道是第几个人帮某个用户的某个任务完成的

2019-09-05

运营趋势最终版本.ipynb

运营趋势最终版本

2019-07-29

CDNOW_master.txt

用python分析消费者行为

2019-06-11

order.csvorder.csvorder.csvorder.csv

https://blog.csdn.net/OYY_90/article/details/90174529这篇博客的数据,

2019-05-13

数据库包的前提

数据库包的前提

2019-04-12

wiki教程+生意参谋看板+电商底层表

wiki教程+生意参谋看板+电商底层表,

2019-03-19

大数据分析实战

Spark大数据分析实战 值得推荐

2018-11-22

spark分析-重点推荐

spark分析有实际案例案例重点推荐推荐

2018-11-22

好玩的图表可视化

机器学习,好玩的图表可视化,好玩的图表可视化好玩的图表可视化好玩的图表可视化好玩的图表可视化好玩的图表可视化

2018-10-12

作图小工具

可视化作图小工具

2018-10-12

Excel小人制作男女比例图

Excel小人制作男女比例图

2018-09-13

tableau数据集

对应的博客教程,tableau大数据分析的资源数据集 对应的博客教程,tableau大数据分析的资源数据集

2018-09-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除