2019年05月_民谣书生

12月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 tushare 的token设置

1.安装：pip install tushare --upgrade2.注册：https://tushare.pro，如图，复制粘贴即可import pandas as pdimport tushare as ts#a9f08e2376247c3b4c6********************7189153d946c2token= "#a9f08e2376247c3b4c6**...

2019-05-27 09:49:16 6806

原创 pandas库学习基础和经验（二）--重点推荐

1.pandas 中DataFrame使用:数据标准化、数据分组、日期转换、日期格式化、日期抽取2.pandas 中DataFrame使用：记录抽取，随机抽样，记录合并，字段合并，字段匹配，数据的简单计算3.pandas 中DataFrame使用：数据导入\出，重复值处理，缺失数据处理，字段抽取，字段拆分4.pandas 中DataFrame的数据定义，访问，修改，删除，增加，遍历...

2019-05-24 16:39:41 218

原创 pandas中的stack和unstack函数解析

在用pandas进行数据重排时，经常用到stack和unstack两个函数。stack的意思是堆叠，堆积，unstack即“不要堆叠”，我对两个函数是这样理解和区分的。　　常见的数据的层次化结构有两种，一种是表格，一种是“花括号”，即下面这样的l两种形式：表格在行列方向上均有索引（类似于DataFrame），花括号结构只有“列方向”上的索引（类似于层次化的Series），结构更加偏向于...

2019-05-24 15:08:25 2312

原创 pandas库学习基础和业务经验（一）--重点推荐

近期用到的函数总结：#分组排序功能import pandas as pddef test_f(df,column,istopn = False,n=1): """ df:数据框 column:为需要对之聚合的列 istopn:返回每一组的第n行数据 """ count = len(df) distinct_count = df[co...

2019-05-22 17:40:13 243

原创一个文件夹下多个sheet多个excel获取并清洗

#by carson 2019-05-21#函数的定义：获取对应目录下多个带有多个sheet工作薄的excel文件def read_info(inputdir): #文件夹下多个工作薄 sheet_names = ["ALL-ALL","ALL-TM","ALL-TB","PC-ALL","PC-TM","PC-TB","WX-ALL","WX-TM","WX-TB"] #读取当...

2019-05-21 13:46:00 569

原创 hive函数实操大全--重点推荐

把最近学到的博客整理在一起了：相关博客1.一文读懂Hive分析窗口函数（hive做累计、分组、排序、层次等计算）https://blog.csdn.net/abc200941410128/article/details/784089422.hive分层级取数（将多行记录合并为一条）：concat_ws ，collect_sethttps://blog.csdn.net/LH09126...

2019-05-14 10:58:06 520

原创纠正别人博客中的hive问题

因为有业务需求，所以查看了几篇别人的博客，发现有错误的地方：1.http://www.cnblogs.com/mobiwangyue/p/8328758.html2.https://www.jianshu.com/p/51599bab0c00为了验证业务需求的做法，特地模拟了一些假的数据做相关demo，数据如下：1. hive2. show databases;3. us...

2019-05-13 15:50:33 199

原创 SQL优化：hive中的over和各个函数综合应用

1.使用over子句与rows_number()以及聚合函数进行使用，可以进行编号以及各种操作。而且利用over子句的分组效率比group by子句的效率更高。2.在订单表（order）中统计中，生成这么每一条记录都包含如下信息：“所有订单的总和”、“每一位客户的所有订单的总和”、”每一单的金额“#代码如下select customerID,SUM(totalPrice) ov...

2019-05-13 09:22:37 943 1

原创生意参谋获取数据系列章节

1.生意参谋采集过程中的链接测试工具Sycm Request Test2.生意参谋漏洞之无限“任意店铺”销售数据”查询及一些扩展3.深思淘宝生意参谋改版数据权限减少图片化加密的背后4.关于生意参谋数据采集分析人员，我们的采集程序是否可以使用另一种方式，更不用大改之前所写的代码5.http调用api解密生意参谋DATA6.Excel调用.net生成的DLL解密生意参谋DATA...

2019-05-08 14:24:44 2942 4

原创业务分析：hive下的分组求占比情况

在业务中与见一个占比情况，做了一个小demo，以供自己参考元数据：实现的形式#方式一with demo as (select cookieid as cookieid,pv as pv,sum(pv) over() as total,pv/sum(pv) over() percentfrom pv_web)select cookieid,sum(p...

2019-05-05 12:58:55 16047 2

销售额占比前十的店铺！

3.月维度！增长幅度大的店铺降幅大的店铺上个月有这个月没进前300名的

2019-11-29

pima-indians-diabetes-database-master.zip

皮马印第安人糖尿病数据集下载皮马印第安人糖尿病数据集下载数据集：pima_indians-diabetes.csv 美国亚利桑那州的⽐马印第安⼈患糖尿病概率极⾼。WHO为此调查了21岁以上的⼥性患者，并记录了以下信息： 1. 怀孕了⼏次 2. ⾎糖 3. ⾎压 4. ⽪脂厚度 5. 胰岛素 6. 体质指数 7. 糖尿病统 8. 年龄 9. label：是否患病

2019-09-19

户的某个任务完成的#发放优惠券户的某个任务完成的#发放优惠券户的某个任务完成的#发放优惠券

#发放优惠券游戏解释：当用户A发起某个砍价任务B，分享链接被其他人C.D.E等人点击后砍掉对应的价格（多个用户，用户可发起多个任务）游戏规则：满70-20 需求：需要知道是第几个人帮某个用户的某个任务完成的#发放优惠券游戏解释：当用户A发起某个砍价任务B，分享链接被其他人C.D.E等人点击后砍掉对应的价格（多个用户，用户可发起多个任务）游戏规则：满70-20 需求：需要知道是第几个人帮某个用户的某个任务完成的#发放优惠券游戏解释：当用户A发起某个砍价任务B，分享链接被其他人C.D.E等人点击后砍掉对应的价格（多个用户，用户可发起多个任务）游戏规则：满70-20 需求：需要知道是第几个人帮某个用户的某个任务完成的

2019-09-05