上进的菜鸟-CSDN博客

原创统计数字会撒谎-读书笔记

1.样本的抽取要无偏，而且人们要说实话人们会说真话的假定往往是不可靠的。以前曾经搞过一项旨在了解杂志阅读量的上门调查，其中的一个主要问题是：你和你的家人阅读什么杂志?当将调查结果制表并分析后发现：大部分的人喜欢《琴师》(Harper’s)，而没有多少人喜欢《真实故事》(True Story)。但出版商提供的数据却很明显地表明：《真实故事》的发行量是几百万份，而《琴师》只有几十万份。正...

2020-04-06 11:06:49 1283

原创三、内容页设计

插入-smartart-左侧有个左右指的图标-点中-自动更改文字&回车增加行；点中整个smartart图形-设置字体颜色；点中某部分矩形-格式-形状填充（ctrl+Y、F4重复上一次操作）挡住图片上的文字：裁剪和该图片一样的北京，盖住文字-组合插入图片时图片太大想缩小同等比：插入想要的大小的矩形-置于底层-无填充-组合插入形状-设置格式-无线条-透明度30%可...

2020-04-05 10:03:36 780

原创三、过渡页设计

按住shift 同时调整图片大小1.过渡页1插入形状-设置格式-无线条-透明度30%可2.过渡页2

2020-04-01 15:05:34 599

原创二、目录页设计

格式统一：先做好一个目录1，ctrl按住往外拉四个-按住目录1格式刷双击再按其他的目录-格式左对齐+纵向分布在形状里可以直接写文字：调节文字上下可以如上图所示文字前面加点：选中文字-开始-项目选项插入表格-选中所有表格-设计-榜值4，笔颜色和背景色一样-边框-所有边框（这是设置边框大小与格式）右键-合并单元格得到想要的格式...

2020-03-31 16:55:57 592

原创一、PPT封面设计

宽屏：设计-页面设置（16:9分辨率）1 封面效果1图片拉大拉小不变分辨率：右下角那个点拉大拉小，之后再使用图片裁剪即可插入-形状-修改形状格式插入-文本框-选中整个文本框更改字体和大小（不要只是单个字）；选中整个文本框-格式-文本效果-映像2.封面效果2一句话分三个文字框：某某制药、恩替卡韦、临床研究汇报；恩替卡韦先放大；放大镜是插入圆形（按住shift方法缩小不...

2020-03-31 16:52:25 928

原创多个left join的疑问

测试数据a表id1-10，b表id5-12，c表id2-11目的：找到满足a表不满足b表满足c表的id（应该是2，3，4）use test;create table testtesta (id bigint);insert into testtesta values (1);insert into testtesta values (2);insert into testtes...

2019-12-19 13:51:23 958

原创 count(*) count(列名)count(1)

COUNT(常量)和COUNT(*)表示的是直接查询符合条件的数据库表的行数。而COUNT(列名)表示的是查询符合条件的列的值不为NULL的行数COUNT(*)相比COUNT(常量)和COUNT(列名)来讲，COUNT(*)是SQL92定义的标准统计行数的语法，因为他是标准语法，所以MySQL数据库对他进行过很多优化1、COUNT有几种用法？count(1) count(*) ...

2019-12-04 14:55:51 286

原创计算新访uv次日留存率

select first_date ,count(distinct case when by_day=0 then yxuserid else null end) as day_0 ,count(distinct case when by_day=1 then yxuserid else null end) as day_1 ,count(distinct case when by_da...

2019-12-03 20:58:17 2784

原创 python离散因变量模型

Binary Probit模型连接函数为正态from statsmodels.formula.api import glmformula='Attention~CSI+Company+Loyalty'product_m=glm(formula,data=product,family=sm.families.Binomial(sm.families.links.probit)).fit...

2019-11-26 14:06:56 1361

原创 python回归分析

目录含定性变量的线性回归非线性回归含定性变量的线性回归# 1.treatment包实现dummyfrom patsy.contrasts import Treatmentcontrast = Treatment(reference=3).code_without_intercept([1,2,3])#分类变量有三个属性分别可以用1，2，3表示，参考属性设置为3（表现...

2019-11-26 13:39:26 1661

原创 python相关分析和关联分析

相关分析函数关系：相关关系：影响不存在方向性，比如身高越高体重越重，但不能说身高增加1cm体重增加2kg相关分析不具有传递性，A和C相关，B和C相关，A和B不一定相关相关系数的显著性检验#1.两两相关性[有相关系数有p值]correlation=[]for I in car_corr[['weight','circle','horsepower']].columns: ...

2019-11-25 20:00:35 3085

原创 python非参数检验

目录单样本非参数检验中位数（均值）检验【wilcoxon符号值秩检验】分布的检验游程检验两样本的非参数检验独立样本中位数（均值）检验【Mann-Whitney-Wilcoxon检验or Wilcoxon秩和检验】独立样本的分布检验配对样本中位数的检验两样本游程检验多个样本的非参数检验多个样本的分布检验独立样本位置的检验在总体分布未知或与总体...

2019-11-25 15:42:01 5236 2

转载 categories与set_categories

import pandas as pdimport numpy as npdf = pd.DataFrame({"id":[1,2,3,4,5,6], "raw_grade":['a', 'b', 'b', 'a', 'a', 'e']})#将raw_grade列转化为category类型df["grade"] = df["raw_grade"].astype("category")...

2019-11-25 10:38:10 1685

原创 python方差分析

目录一元方差分析一元单因素方差分析一元多因素方差分析协方差分析一元方差分析一元单因素方差分析场景：5种不同像素的数码相机（单因素）对销量（研究的因变量）是否有显著差异G = dc_sales['pixel'].unique()args = []for I in list(G): args.append(dc_sales[dc_sal...

2019-11-22 10:18:40 3728

原创 python假设检验

单样本均值Z检验适合条件：1.总体方差已知，小样本/大样本;2.总体方差未知，大样本(n>=30)# ho:u<=4,所以value=4,alternative[备择假设]='lager'sm.stats.DescrStatsW(moisture['moisture']).ztest_mean(value=4,alternative='lager')单样本均值t检验...

2019-11-21 17:54:02 1504

原创 python数据描述

目录集中趋势均值(加权截尾去尾几何调和）中位数分位数众数极差四分位差方差和标准差协方差变异系数（标准差系数、离散系数）分布形状偏度(数据分布对称性的测度）峰度（数据分布曲线顶端陡峭或扁平程度的指标）数据透视表集中趋势均值(加权截尾去尾几何调和）np.mean(jd_stock['opening_price'])# 加权算术平...

2019-11-21 16:06:40 2919

原创三值逻辑和null

如果not in子查询用到的表里被选择的列中存在null，sql查询结果永远为空

2019-10-05 09:31:16 198

原创 pandas

一、seriess.values.indexs.reindex(index=,fill_value=)s.reindex(index=,method='ffill'/'bfill'/'pad')pd.isnull(s)二、dataframe2.1 基本信息df.coulmnsdf.valuesdf.info()df.dtypes()2.2 索引d...

2019-10-03 20:56:14 2249

原创 numpy方法汇总（切片，组合等）

一、numpy索引1.1布尔索引row_index = (M[:,0] >= 20) & (M[:,0] <= 80)col_index = M[0,:] >= 5M[row_index,:][:,col_index]注意：不能在同一个方括号中对列和行都使用布尔索引。新词我们必须先在行方向上进行布尔选择，然后重新打开方括号进行第二次选择，这一次集中在...

2019-10-03 10:13:41 2814

原创 collections

1.nametuple# 字典方法t = ('jilu','27','beijing')kt = ('name','age','loc')d4 = dict(zip(kt,t))# nametuple实现同等效果from collections import nametuplent = nametuple('nt','name age loc')nt1 = nt('jilu',...

2019-09-24 10:09:16 418

原创从组合中估计概率

一些分类算法缺乏输出结果为概率的能力，比如rf这个时候使用calibratedclassifiercv，它使用2种方法将分类结果转化为概率第一种：platte的归类方法第二种：isotonic回归import pandas as pdimport matplotlib.pyplot as pltfrom sklearn.calibration import Calibrate...

2019-09-23 21:48:14 497

原创异常检测实战

数据科学导论 python语言实现一、单变量异常检测（一次观测一个变量）1.1 Z-scores 得分绝对值超过3的1.2 箱线图import numpy as npfrom sklearn import preprocessingnormailized_data = preprocessing.StandardScaler().fit_transform(boston...

2019-09-23 11:18:57 786

原创时间序列流程

一、变平稳1.1 去趋势差分、取对数1.2去周期性滤波、差分1.3变平稳的原因除了1.1、1.2之外还有稳定方差、使数据呈现正态分布、使周期效应累加ARIMA模型的示例代码from pandas import read_csvfrom pandas import datetimefrom matplotlib import pyplo...

2019-09-22 10:46:02 872

原创互联网杂记

costco定位：中产阶段家庭：无忧购物无理由退货+超值的价格+满足需求且超少的SKU本田有三个喜欢：让造车的人喜欢，让卖车的人喜欢，让用车的人喜欢供应链稳定的采购+员工的高薪水()+付费会员的蜂拥而至缺点：大包装不符合国情；羊毛党；被电商惯坏的中国消费者，他们没有免费送货服务；租金成本中美互联网中国：短视频时长增量是长视频的6倍(1.媒介的碎片化娱乐化2.抖音快手的成功3...

2019-09-03 10:17:28 149

原创 sql--来自各路面筋

1.pddCREATE TABLE pdd(u_id VARCHAR(20) NOT NULL,ip INT NOT NULL,timestamp datetime NOT NULL);insert into pdd values('a',124,'2019-08-07 12:09:02');insert in...

2019-08-23 17:33:08 171

原创 task5

作业任务一 1.1统计汇总每个城市大专、本科、硕士、博士的招聘人数，对学历没有要求的招聘不计算在内，效果图如下：插入——数据透视表——ctrl+A 全选将字段city拖入行 education拖入列值拖入education在列标签的选项中取消不限，完成1.2统计汇总每个城市大专、本科、硕士、博士的最低工资平均值，对学历没有要求的招聘不计算在内，效果图如下：做法同上...

2019-08-16 11:27:27 150

原创 task3

1.先条件筛选*数据分析*，之后countif计数2.统计求职者学历要求情况3.统计求职者工作经验要求（同上）4.各种职位需求（同上5.不同城市不同行业对数据分析的需求【还不知道怎么做，待百度】后面待补充...

2019-08-14 20:48:59 109

原创 hive遗留问题

hive和mysql有什么不同1.不支持下列from a,b where用法SQL中对两表内联可以写成：select * from dual a,dual b where a.key = b.key;Hive中应为：select * from dual a join dual b on a.key = b.key2.不能智能识别concat(‘;’,key)，只会将‘；’当做SQL结...

2019-08-13 17:05:22 487

转载双因素方差分析

统计学简介之十七——双因素方差分析一、双因素方差分析定义二、分析过程2.1 数据结构2.2 分析步骤

2019-08-12 14:28:53 18333 2

原创 task3

Task 3双条件查找https://jingyan.baidu.com/article/fd8044faf87ea55031137af6.html作业(请下载提供的数据集《DataAnalyst》) 链接：https://pan.baidu.com/s/1sCaFkQ9DoxYE-FyiY2ewPA 提取码：f55z用vlookup函数查找以下公司的 company...

2019-08-11 17:51:53 180

原创 task2

任务一 1.1将列salary最低工资提取出来，假如单元格为“10k以上”、“8k以下”等，最低工资直接为10和8，效果如下：答案：=LEFT(P2,FIND("k",P2)-1)但是不全面，因为有的K大写LEFT(P2,IFERROR(FIND("k",P2)-1,FIND("K",P2)-1))*11.2 计算北京最低工资的平均值？=SUMIF(A:A,"北京",R:R)...

2019-08-09 19:41:27 190

原创连续时间问题-sql

问题：con_table(user_id,ttime) ttime为用户登陆时间，现在需要找出来连续登陆时间天数超过3天的用户create table con_table (user_id int not null,ttime datetime not null);insert into con_table values (1,'2019-07-07 10:00:01');inse...

2019-08-09 11:40:17 705 3

原创 task1

生成一个行高30，列宽15（第六列列宽45），名为“Excel组队学习”的表，要求如下： 1、第一列为职位ID，背景色为浅蓝； 2、第二列为职位类型，字体颜色为红色； 3、第三列为学历，每个单元格有下拉列表，选项为大专、本科、硕士、博士； 4、第四列为行业方向，单元格边框为红色虚线； 5、第五列为薪资水平，数据类型为货币，保留两位小数； 6、第六列为职位标签。第三问：设置下拉列表数据有...

2019-08-07 17:06:09 157

原创绘图（饼图/折线图设置）

#!/usr/bin/env python3# -*- coding: utf-8 -*-"""Created on Mon Aug 5 17:21:10 2019@author: didi"""#!/usr/bin/env python3# -*- coding: utf-8 -*-"""Created on Fri Jul 26 11:19:05 2019@aut...

2019-08-06 15:21:06 388

原创 PCA与FA

主成分分析和因子分析的关系是包含与扩展。当因子分析提取公因子的方法是主成分（矩阵线性组合）时，因子分析结论的前半部分内容就是主成分分析的内容，而因子旋转是因子分析的专属（扩展），主成分分析是因子分析（提取公因子方法为主成分）的中间步骤。这就是为什么很多软件没有专门为主成分分析独立设计模块的原因。从应用范围和功能上讲，因子分析法完全能够替代主成分分析，并且解决了主成分分析不利于含义解释的问题...

2019-08-02 15:54:58 562

转载 ks-test

Kolmogorov-Smirnov是比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布的检验方法。其原假设H0:两个数据分布一致或者数据符合理论分布。D=max| f(x)- g(x)|，当实际观测值D>D(n,α)则拒绝H0，否则则接受H0假设。KS检验与t-检验之类的其他方法不同是KS检验不需要知道数据的分布情况，可以算是一种非参数检验方法。当然这样方便的代价就是当检验的数...

2019-07-31 10:29:17 4297

原创汇总平均数/比值的坑

A城市：每天车总订单100(total_ord)，一共20个车(total_vid)，因此每天的车均单是5(avg_ord)B城市：每天车总订单300，一共30个车，因此每天的车均单是10在计算全国（假设只有A+B两个城市）简单的车均单加总处以2即（10+5）/2=7.5，对应sql里面avg(avg_ord)但是分开算真实的是：（100+300）/（20+30）=8，对应sql的...

2019-07-30 20:58:09 1469

原创 Hive日期函数

模块 Hive时间函数特别注意要点除了unix_timestamp/from_unixtime之外其他函数无法识别‘年-月’形式，至少‘年-月-日’ to_date 注意to_date就是返回年-月-日，和day(‘2019-07-02’)返回02不一样 ...

2019-07-29 10:31:15 6668

转载 lag/lead

lag 和lead 可以获取结果集中，按一定排序所排列的当前行的上下相邻若干offset 的某个行的某个列(不用结果集的自关联）；lag ，lead 分别是向前，向后；lag 和lead 有三个参数，第一个参数是列名，第二个参数是偏移的offset，第三个参数是超出记录窗口时的默认值）举例如下：SQL> select * from kkk;...

2019-07-25 20:28:06 1012

原创自连接--子查询的另一种方式

CREATE TABLE cust(cust_id INT NOT NULL ,cust_name VARCHAR(50) NOT NULL,cust_concat VARCHAR(50) NOT NULL);INSERT INTO cust(cust_id,cust_name,cust_concat) VALUES (1001,'kylin','Mary');INSERT IN...

2019-07-24 15:29:26 639

数据清洗入门与实践

空空如也