- 博客(23)
- 收藏
- 关注
原创 某视频APP用户数据预测
现给到北京线上某款视频APP在2018年1月-2018年7月的实际用户数据,需要预测2018年8月-2019年12月的数据,请基于课程中的案例分析,建立分析方案并给到预测的数据结果。 日期 当月实际户数(户) 2018.1 179 2018.2 199 2018.3 330 2018.4 450
2021-08-24 18:37:13 486
原创 关于回归分析分类
目的:当需要用一个数学表达式(模型)表示多个因素(原因)与另外一个因素(因素)之间关系时,可选用回归分析法。应用:1)分析哪些自变量对因变量存在显著影响作用,R方值可以不要求大于0.82)通过选择对因变量存在影响的自变量,建立预测因变量取值的预测模型,模型R方值必须要求大于等于0.8但是,在人文社科领域,很多回归模型的R方值达不到0.8,也可以用来做预测。(回归分析属于参数检验法)回归分析的建立步骤:1)选择变量自变量:第一:前人的研究成果,第二:个人经验因变量:根据研究
2021-08-05 17:46:42 3876
原创 关于产品经理
产品经理的本质产品经理的本质是价值定位、价值连接和价值创造。其中,价值定位决定我们能否做正确的事,价值连接决定我们能否用正确的方法做事,价值定位与价值连接后,最终决定我们能否实现价值创造。价值定位:价值定位是一切产品原则的基础,是产品可持续产生市场竞争力的前提,它常常决定了产品的成败,也是产品经理持续进行产品迭代的指南针。根据与产品关联的核心要素,我们把产品价值分为用户价值(B 和 C 两端)、业务价值、产业价值和社会价值这四个层面1)用户价值关键问题:..
2021-08-04 23:10:39 241
原创 多变量分析方法与相关分析
1.有因变量,则建立有监督模型有监督模型具有两大通用目的:1)分析哪些自变量对因变量存在显著影响作用,2)通过选择对因变量存在影响的自变量,建立预测因变量取值的预测模型。1)因变量为连续变量(建立的模型称为回归预测模型),自变量为连续变量时,可选择回归分析,方差分析;自变量为分类变量或分类+连续变量,可选择带虚拟变量的回归分析、联合分析、方差分析。2)因变量为分类变量(建立的模型称为分类预测模型),当自变量为连续变量(或连续+分类变量)时,可选用判别分析、Logistic、probit回归等;当
2021-08-04 17:15:29 16145
原创 t检验、方差检验
t检验:目的:在样本中比较连续变量的平均数,以检验均值之间的差异是否大于能被机遇所解释的差异。样本均值有差异,总体之间确实存在差异的概率是多少?包括单样本t检验、独立样本t检验、配对样本t检验,都是用来通过样本均值对总体均值的推断检验。适用于小样本的检验方法,当样本较小时(50以下),服从t分布;样本量较大时近似服从正态分布。在实际应用中,主要适用在两组样本的均值比较中。某个变量的样本均数与给定总体的已知均数相比,其差异是否有显著。数据要求:小样本时来自的总体服从正态分布,如
2021-08-03 19:03:12 4829
原创 关于卡方检验
假设检验的结论:p<0.05,则研究假设成立;反之,p>0.05,则研究假设不成立。属于非参数检验是在总体分布未知或知之甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。由于非参数检验方法在推断过程中不涉及有关总体分布的参数 ,因而得名为“非参数”检验。卡方检验重要性:适用于不知道总体参数的检验,是最常用的一种非参数检验。当不适用参数检验法时,第一个想到的就是卡方检验。常见的单样本非参检验方法卡方检验:检验所有类别是否包含相同频率或者用户指定比
2021-08-02 18:09:55 3824
原创 抽样概念及常见方法
抽样的概念 抽样调查与普查 非抽样误差 抽样形式指在不能进行全数调查时,为了推测总体的倾向,抽取真实地代表调查总体的调查对象。抽样调查特点:抽样调查花费较少 迅速地获取信息 争取时效是非常重要的 总体太大,实际上无法实行普查 个别对象难以接触 实验是破坏性的 科学地抽样--样本具有代表性,——可控制抽样误差普查特点:总体较小 总体差异(方差)较大 抽样误差较大误差:抽样误差(可控制) 非抽样误差非抽样误差:非抽样误差是指...
2021-08-01 18:00:36 2368
原创 假设检验/统计推断
统计推断:抽样误差与标准误 t分布 参数估计 假设检验(递进关系)总体推断大数定律和中心极限定理大数定律(Law of Large Numbers)样本n越大,样本均值几乎必然等于总体均值中心极限定理(Central limit Theorem)当样本量N逐渐趋于无穷大时,N个抽样样本的均值的频数逐渐趋于正态分布。抽样误差与标准误抽样误差由个体变异产生的、抽样造成的样本统计量与总体参数的差别。原因: 抽样 个体差异 标准误(Standard
2021-07-31 17:42:56 1430
原创 统计分析的关键概念
四种测量尺度 名义(定类)尺度 功能:分类作用 例:性别 顺序(定序)尺度 功能:分类、排序 例:喜欢的明星、年级 间隔(定距)尺度 功能:分类、排序、加减 例:温度 比例(定比)尺度 功能:分类、排序、加减、乘除 例:体重、身高、年龄、年收入 定类、定序合称为分类变量(描述方法:只能用频次、频数统计)定距、定比合称为连续变量(描述方法:均值和标准差,也可以做频数统计)均值算术平均几何平均调和平均调整平...
2021-07-30 22:50:37 2247
原创 统计的基本概念
收集数据,整理分析数据和有数据得出结论的一组概念、原则和方法目的:1.分析过去的变化规律 总结过去变化的原因2.预测未来实现目的的方法:描述性统计:利用表格,图形或者数值(数值特征)来展示和刻画数据中的信息推断性统计:利用样本获得的数据对总体的性质进行估计或者检验。总体的性质通常用概率模型刻画总结:推断性统计是对描述性统计的估计和检验统计学本质:抽样:为了了解全体调查对象的倾向,需要以抽样的方式统计性地抽取一部分调查对象,然后根据样本中所包含的信息对总体的状况进行估计
2021-07-21 21:19:07 228
原创 原型图基本知识
原型图作用 描述互联网产品设计的文档 项目中,与相关部门沟通需求的工具(研发,设计) 敏捷开发中,简化版的需求文档(PRD,MRD)原型图种类 线框图 优点:制作快速,低成本描述方案,给设计更多的空间 缺点:表述不明确,有时会造成误解(对容易误解处,加上备注描述清楚) 高保真原型图 优点:还原度高,保证设计效果 缺点:制作耗时 高保真原型图要素: 1.形状,尺寸:严...
2021-07-20 23:27:09 1586
原创 spider爬虫demo
通过 XPath,提取小节名称与以及小节名称对应的链接地址。然后将其保存为 excel 文件。目标网址:https://www.runoob.com/html/html-tutorial.htmlimport requestsimport lxml.etree as leimport pandas as pdurl = 'https://www.runoob.com/html/html-tutorial.html'x = '//div[@id = "leftcolumn"]/a/text
2021-07-20 22:17:14 126
原创 利用Pandas和Matplotlib将某校高中生体侧数据处理后可视化展现
1、数据加载, pd.read_excel('./18级高一体测成绩汇总.xls')默认加载第一个工作表# 引入模块import numpy as npimport pandas as pdma= pd.read_excel('./18级高一体测成绩汇总.xls')2、数据加载, pd.read_excel('./18级高一体测成绩汇总.xls',sheet_name = 1)指定加载第二个工作表fe = pd.read_excel('./18级高一体测成绩汇总.xls',sh..
2021-07-08 17:34:37 1020
原创 NumPy 成绩统计
1.随机数生成六个班的考试成绩,3门考试:Python、数学、语文。每个班50人import numpy as np # 导入模块grade1 = np.random.randint(0,100,size = (50,3))grade2 = np.random.randint(0,100,size = (50,3))grade3 = np.random.randint(0,100,size = (50,3))grade4 = np.random.randint(0,100,size = (50
2021-07-02 11:20:51 2424
原创 NumPy安装
什么是NumPy:NumPy(Numerical Python)是Python的⼀种开源的数值计算扩展。提供多维数组对象,各种派⽣对 象(如掩码数组和矩阵),这种⼯具可⽤来存储和处理⼤型矩阵,⽐Python⾃身的嵌套列表(nested list structure)结构要⾼效的多(该结构也可以⽤来表示矩阵(matrix)),⽀持⼤量的维度数组与矩阵 运算,此外也针对数组运算提供⼤量的数学函数库,包括数学、逻辑、形状操作、排序、选择、输⼊输出、离散傅⽴叶变换、基本线性代数,基本统计运算和随机模拟等等。
2021-06-30 18:19:49 110
原创 简单爬虫练习
引入模块import requestsfrom bs4 import BeautifulSoup爬取网页内容# 起始页面star_url = 'http://quotes.toscrape.com'# 刚开始时下一页就是起始页next_pag_url = star_url# 不停获取下一页while next_pag_url: url = requests.get(next_pag_url) url.raise_for_status() bs = Beau
2021-06-30 17:48:20 131
原创 BeautifulSoup模块使用
1.安装BeautifulSoup模块pip install beautifulsoup42.文件中引入from bs4 import BeautifulSoup3.使用BeautifulSoupwith open('./tests/python.html',encoding='utf-8') as f: texts = f.read()bs = BeautifulSoup(texts,'html.parser')print(bs.title)# 获取节点文本pr
2021-06-30 16:41:37 95
原创 Python发送邮件
1.邮箱设置IMAP/SMTP服务 开启POP3/SMTP服务 开启2.邮箱地址POP3服务器: pop.163.com 用于接收SMTP服务器: smtp.163.com 用于发送IMAP服务器: imap.163.com 接收/发送3.引入模块import smtplib# 引入发送内容模块from email.mime.text import MIMEText# 引入发送附件模块from e...
2021-06-30 00:45:01 99
原创 Python PDF添加水印
PDF添加水印加载模块:from PyPDF2 import PdfFileReader,PdfFileWriterimport osPDF添加水印:watermark_pdf = PdfFileReader('./tests/watermark.pdf')# 读取第一页watermark = watermark_pdf.getPage(0)# 读取需要加水印的pdf文件input_pdf = PdfFileReader('./tests/daily_report.pdf')# 创建写
2021-06-29 23:55:49 241
原创 使用os模块操作文件以及目录路径,定义一个统计指定文件夹大小的函数
import os# 引用os模块# 定义函数def get_file_size(file_path): sum_size = 0 # 判断 如果是文件就直接获取文件大小 if os.path.isfile(file_path): sum_size += os.path.getsize(file_path) # 判断 如果是文件夹列举出文件夹里的所有文件,获取大小 if os.path.isdir(file_path): l.
2021-06-29 22:53:53 770
原创 Python读取PDF文件
Python读取PDF文件引入必要模块:from pdfminer.converter import TextConverterfrom pdfminer.converter import TextConverterfrom pdfminer.layout import LAParamsfrom pdfminer.pdfdocument import PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager,PDFPageInter
2021-06-29 22:43:35 139
原创 python 使用csv模块csv.writer.().writerrow()写入文件时,总是每行后会插入一空行
python 使用csv模块csv.writer.().writerrow()写入文件时,总是每行后会插入一空行代码:sales = ( ('Tom',(78,69,74)), ('Tony', (83,87,78)), ('Jim',(69,75,74)), ('Sundy',(68,71,78)), ('Jody',(84,79,81)),)with open('./tests/salse.csv','w') as w: write = csv.
2021-06-28 22:31:07 653
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人