![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析基础
文章平均质量分 64
Backup and share
这个作者很懒,什么都没留下…
展开
-
数据分析之python文件读写方法汇总(open|csv|dataframe|openpyxl)
本文介绍 open|csv|dataframe|openpyxl 4种文件读写方法。目录一、内置方法open()读写方式1-打开/读写/关闭(适用文件较小时):方式2-with关键字防止忘记关闭(适用文件较小时):方式3-readlines读取全部内容返回列表(适用文件较小时):方式4-for循环逐行读取(占内存少,大文件可用;适用于对每行数据进行特殊操作):二、csv模块读写2-写入csv文件三、DataFrame对象读写(适用数据需要计算时)1-将表格型文件数.原创 2022-05-07 17:14:35 · 2730 阅读 · 0 评论 -
数据分析之SQL常用函数汇总(Hive)
一、基础函数where, distinct, group by, order by, having, like, as, avg, count, sum, min, max, if, join系列, limit, and, or, in, between and, locate, left, view, union, union all二、进阶函数1. 时间函数 1. current_date 当前日期 2. datediff 时间差 3. date_add/sub...原创 2022-04-27 17:41:06 · 1240 阅读 · 2 评论 -
假设检验之双样本Z检验公式在转化率指标和数值型指标上的应用
转化率指标z_score= (P1 - P2) / SQRT( P1*(1-P1)/N1 + P2*(1-P2)/N2 )数值型指标z=(u1-u2)/sqrt(delta1^2/n1 + delta2^2/n2)应用到互联网产品AB实验中,重点在于分别计算实验组和对照组指标的均值和标准差。数值型指标的标准差可以根据每个样本的数值计算出来。原创 2022-04-26 17:50:42 · 4273 阅读 · 0 评论 -
幂函数衰减系数公式推导(最小二乘法求解一元线性回归方程系数)
python获取留存曲线的幂函数系数并计算生命周期LT,中介绍了获取幂函数系数的两种方式,下文对第一种方法【lnx、lny对应的线性拟合,最小二乘法求解系数】进行公式推导。原创 2022-04-22 16:14:32 · 4430 阅读 · 0 评论 -
AB实验知识备份
1、什么是:测试多个方案后选择一个最佳方案进行全面推广。2、为什么:通过实验方式提升核心指标,进而撬动留存、扩大用户群体、增加收入。3、如何做:保证足够的样本量、选取无偏差的样本、遵循互斥或正交原则。4、实验架构:流量分配管理、埋点设计开发、数据收集处理、实验效果评估。5、实验流程:需求评审、实验创建、埋点圈层、官方放量、渠道放量、实验结论、代码下线。6、统计应用:假设检验依据小概率事件不太可能发生的思想,通过证明假设出现的概率(P值)很小来反证假设的对立面可能成立。原创 2022-02-25 19:11:38 · 2553 阅读 · 0 评论 -
数据仓库知识备份
数据仓库是集成各类型数据的数据集合,对企业各级别的决策提供数据依据。数据仓库的数据反映的是一段相当长时间内历史数据的内容,是不同时点数据快照的集合,以及基于这些快照进行统计、整合、重组的数据。原创 2022-02-23 16:26:35 · 1530 阅读 · 0 评论 -
redis2txt-获取redis数据并存储到txt文件
list类型: redis-cli -h ip LRANGE key 0 999999 | while read item do echo $item >> /tmp/listdata.txt doneset类型:redis-cli -h ip smembers key | while read item do echo $item >> ./setdata.txt done原创 2022-02-23 11:07:41 · 1442 阅读 · 0 评论 -
DAU变化因素分析思路
分为问题验证和内外因分析两个环节,内因部分主要采用多维拆解、公式拆解、上卷下钻、圈层对比等。待完善。参考:1、【2020.11】DAU下降了,怎么办?2、【2021.1】增长黑客-DAU下降分析-指标异常分析框架...原创 2022-02-15 19:27:28 · 351 阅读 · 0 评论 -
数据埋点知识备份
一、什么是埋点埋点是在APP/H5/小程序等产品中通过植入代码/嵌入SDK等方式来采集用户的前端交互/后端请求行为的一种数据采集方法。二、埋点的作用埋点可以说是落地整个数据驱动增长最基础、也是最关键的一步。因为只有采集的数据足够准确,我们才能通过数据分析做出正确的决策,进而促进活动、产品及公司的整体增长,意义是十分重大的!通过埋点可以得到想要的数据:当前版本的复盘情况– 新版本功能使用情况,是否符合预期;– 新功能上线后对其他功能点的影响?是否为整体均有积极作用;– 版本运营活动目标群体原创 2021-11-23 14:44:19 · 1828 阅读 · 0 评论 -
Python爬虫v2-手机价位爬虫
modelhead.txtSONY+V270SONY_Q10SONY—MIDTCL P550UTCL S950TTCL+A865XBHAndroidXC2536vivo_1603vivo_S11vivo_X20Plusvivo_X520Fvivo_X9s_Plus_Lvivo_Y937#!/usr/bin/python# -*- coding: utf-8 -*-#本程序用于爬取手机价位等信息from bs4 import BeautifulSoupfrom.原创 2021-04-02 19:04:30 · 585 阅读 · 4 评论 -
Python爬虫v1-API接口数据获取&处理&保存到excel
curl查看:curl http://www.kuaidi100.com/query?type=yuantong&postid=11111111111rawdata:json1:json2:result:存储到excel:原创 2021-04-01 20:44:33 · 989 阅读 · 0 评论 -
python获取留存曲线的幂函数系数并计算生命周期LT
输入数据为:日期、渠道、第几日留存(x_value)、第几日留存率(y_value)【若拟合app整体留存曲线,则去掉渠道字段】输出数据为:日期、渠道、a、b、lt【同上】#!/usr/bin/python# -*- coding: utf-8 -*-import sysimport pandas as pdfrom scipy.optimize import curve_fitimport numpy as npimport mathimport datetimede.原创 2021-03-22 20:02:50 · 1740 阅读 · 0 评论 -
APP的LT预估模型及LTV/ROI计算
LT ( Life Time ) 生命周期(日)。LTV ( Life Time Value ) 用户生命周期的总价值。CAC ( Customer Acquisition Cost ) 用户获取成本。ROI ( Return on investment ) 投资回报率。ROI = LTV/CAC。 一般来说,当一款APP的ROI小于1时,说明该产品处于亏损状态;当一款APP的ROI大于1时,说明该产品处于盈利状态。而在盈利状态下,可考虑加大推广吸纳更多用户。那么该如何验证ROI...原创 2021-03-05 19:45:40 · 11081 阅读 · 2 评论 -
Python发邮件合集
# -*- coding: utf-8 -#! /usr/bin/env python '''Created on 2017-10-10@author: Backup and sharepython发邮件合集:目录:0.【自定义-显示格式等设置】1.在实例msg中加入【邮件正文显示-静态文本】2.在实例msg中加入【邮件正文显示-文档中文本】3.在实例msg中加入...原创 2020-01-16 16:40:15 · 306 阅读 · 0 评论 -
Python发送附件邮件-smtplib
import sysimport smtplibfrom email.mime.text import MIMETextfrom email.mime.multipart import MIMEMultipartfrom email.header import Headerfrom email.utils import parseaddr,formataddrimport da...原创 2020-01-16 16:28:44 · 580 阅读 · 0 评论 -
txt文件导入redis-单线程、多线程
一、txt文件导入redis-单线程#!/bin/pythonimport redisr=redis.Redis("xx:xx:xx:xx")file_object = open('x.txt')try: for line in file_object: r.sadd('r_home_shallow_user',line.strip()) print ...原创 2020-01-09 19:25:15 · 1094 阅读 · 0 评论 -
shell判断给定日期是否是周末or月末
一、shell 判断某日期是否是周日1、shell 判断某日期是周几通过date命令获取,获取结果:0为星期日,1-6为星期一至星期六。 date +%w 取得当天是星期几 date -d 20120311 +%w 取得2012年3月11日是星期几date -d 2012-03-11 +%w 取得2012年3月11日是星期几date -d $datebuf +%w 取得datebuf...原创 2019-12-12 20:53:30 · 2917 阅读 · 0 评论 -
使用shell脚本执行sql文件-传递参数
使用shell脚本执行sql文件-传递参数终端执行-日志及结果直接打印:sh x.sh后台执行-日志存在nohup.out(防止断网时任务中断):nohup sh x.sh &x.sh 文件:hive --hivevar datebuf=${date} --f x.sql >> x.txt;等于hive -d datebuf=${date} -f x.sql &g...原创 2019-12-12 20:39:32 · 2315 阅读 · 0 评论 -
Presto坑-insert overwrite & 传递参数替代方案
一、presto不支持insert overwritePresto中不支持insert overwrite语法,只能先delete,然后insert into。详见:Presto上使用SQL遇到的一些坑:https://segmentfault.com/a/1190000013120454二、presto不支持传递参数到.sql文件可通过shell脚本中的sed将.sql文件中的变量替换掉...原创 2019-12-12 20:19:04 · 7409 阅读 · 1 评论 -
EXCEL公式获取幂函数系数解析
创建时间:2019-07-17工具:Excel乘幂函数:y = a * x^(-b)衰减系数 b = -INDEX(LINEST(LN(y_value_array),LN(x_value_array)),1)详见:https://blog.csdn.net/u014710355/article/details/81395341解析:1.函数说明1.1 LN(y_value_array...原创 2019-12-12 19:57:49 · 4520 阅读 · 3 评论 -
Hive坑
http://note.youdao.com/noteshare?id=47dd44b2acab22784498747393bafeba原创 2019-06-23 16:58:43 · 151 阅读 · 0 评论 -
Presto基础用法介绍
http://note.youdao.com/noteshare?id=1115e26a8ed49d1c34a7a37c3013a200原创 2019-06-23 16:55:00 · 3315 阅读 · 2 评论 -
Superset可视化指南
http://note.youdao.com/noteshare?id=a1f78d6ed74eac573ca2e1c905931844原创 2019-06-23 16:50:02 · 239 阅读 · 0 评论