- 博客(10)
- 资源 (14)
- 收藏
- 关注
原创 tushare 的token设置
1.安装:pip install tushare --upgrade2.注册:https://tushare.pro,如图,复制粘贴即可import pandas as pdimport tushare as ts#a9f08e2376247c3b4c6********************7189153d946c2token= "#a9f08e2376247c3b4c6**...
2019-05-27 09:49:16 6806
原创 pandas库学习基础和经验(二)--重点推荐
1.pandas 中DataFrame使用:数据标准化、数据分组、日期转换、日期格式化、日期抽取2.pandas 中DataFrame使用:记录抽取,随机抽样,记录合并,字段合并,字段匹配,数据的简单计算3.pandas 中DataFrame使用:数据导入\出,重复值处理,缺失数据处理,字段抽取,字段拆分4.pandas 中DataFrame的数据定义,访问,修改,删除,增加,遍历...
2019-05-24 16:39:41 218
原创 pandas中的stack和unstack函数解析
在用pandas进行数据重排时,经常用到stack和unstack两个函数。stack的意思是堆叠,堆积,unstack即“不要堆叠”,我对两个函数是这样理解和区分的。 常见的数据的层次化结构有两种,一种是表格,一种是“花括号”,即下面这样的l两种形式:表格在行列方向上均有索引(类似于DataFrame),花括号结构只有“列方向”上的索引(类似于层次化的Series),结构更加偏向于...
2019-05-24 15:08:25 2312
原创 pandas库学习基础和业务经验(一)--重点推荐
近期用到的函数总结:#分组排序功能import pandas as pddef test_f(df,column,istopn = False,n=1): """ df:数据框 column:为需要对之聚合的列 istopn:返回每一组的第n行数据 """ count = len(df) distinct_count = df[co...
2019-05-22 17:40:13 243
原创 一个文件夹下多个sheet多个excel获取并清洗
#by carson 2019-05-21#函数的定义:获取对应目录下多个带有多个sheet工作薄的excel文件def read_info(inputdir): #文件夹下多个工作薄 sheet_names = ["ALL-ALL","ALL-TM","ALL-TB","PC-ALL","PC-TM","PC-TB","WX-ALL","WX-TM","WX-TB"] #读取当...
2019-05-21 13:46:00 569
原创 hive函数实操大全--重点推荐
把最近学到的博客整理在一起了:相关博客1.一文读懂Hive分析窗口函数(hive做累计、分组、排序、层次等计算)https://blog.csdn.net/abc200941410128/article/details/784089422.hive分层级取数(将多行记录合并为一条):concat_ws ,collect_sethttps://blog.csdn.net/LH09126...
2019-05-14 10:58:06 520
原创 纠正别人博客中的hive问题
因为有业务需求,所以查看了几篇别人的博客,发现有错误的地方:1.http://www.cnblogs.com/mobiwangyue/p/8328758.html2.https://www.jianshu.com/p/51599bab0c00为了验证业务需求的做法,特地模拟了一些假的数据做相关demo,数据如下:1. hive2. show databases;3. us...
2019-05-13 15:50:33 199
原创 SQL优化:hive中的over和各个函数综合应用
1.使用over子句与rows_number()以及聚合函数进行使用,可以进行编号以及各种操作。而且利用over子句的分组效率比group by子句的效率更高。2.在订单表(order)中统计中,生成这么每一条记录都包含如下信息:“所有订单的总和”、“每一位客户的所有订单的总和”、”每一单的金额“#代码如下select customerID,SUM(totalPrice) ov...
2019-05-13 09:22:37 943 1
原创 生意参谋获取数据系列章节
1.生意参谋采集过程中的链接测试工具Sycm Request Test2.生意参谋漏洞之无限“任意店铺”销售数据”查询及一些扩展3.深思淘宝生意参谋改版数据权限减少图片化加密的背后4.关于生意参谋数据采集分析人员,我们的采集程序是否可以使用另一种方式,更不用大改之前所写的代码5.http调用api解密生意参谋DATA6.Excel调用.net生成的DLL解密生意参谋DATA...
2019-05-08 14:24:44 2942 4
原创 业务分析:hive下的分组求占比情况
在业务中与见一个占比情况,做了一个小demo,以供自己参考元数据:实现的形式#方式一with demo as (select cookieid as cookieid,pv as pv,sum(pv) over() as total,pv/sum(pv) over() percentfrom pv_web)select cookieid,sum(p...
2019-05-05 12:58:55 16047 2
pima-indians-diabetes-database-master.zip
2019-09-19
户的某个任务完成的#发放优惠券户的某个任务完成的#发放优惠券户的某个任务完成的#发放优惠券
2019-09-05
order.csvorder.csvorder.csvorder.csv
2019-05-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人