数据分析
如果我是温帅帅
这个作者很懒,什么都没留下…
展开
-
【数据分析入门】python数据分析-分析建模机器学习半监督学习
半监督学习原创 2022-07-08 18:25:05 · 303 阅读 · 0 评论 -
【数据分析入门】python数据分析-分析建模机器学习非监督学习中的聚类
聚类算法包含kmeans,DBSCAN, 图分类算法原创 2022-07-08 17:19:18 · 289 阅读 · 0 评论 -
【数据分析入门】python数据分析-分析建模机器学习监督学习中的回归
岭回归,lasso回归通过控制参数的规模原创 2022-07-08 16:31:33 · 314 阅读 · 0 评论 -
【数据分析入门】python数据分析-分析建模机器学习非监督学习中的关联
关联原创 2022-07-08 17:59:23 · 116 阅读 · 0 评论 -
【数据分析入门】python数据分析-机器学习建模评估
机器学习建模评估,数据分析建模评估,数据分析模型评估原创 2022-07-06 17:28:52 · 262 阅读 · 0 评论 -
【数据分析入门】python数据分析-分析建模机器学习
文章目录分析建模机器学习与建模监督学习分类回归非监督学习半监督学习分析建模机器学习与建模根据是否有标注分类为,有标注,无标注,部分标注根据标注是离散值还是连续值监督学习分类回归非监督学习半监督学习............原创 2022-07-06 17:27:30 · 235 阅读 · 0 评论 -
【数据分析入门】python数据分析-分析建模机器学习监督学习中的分类
K=5如果有联合概率分布,就是生成模型,如果没有,就是判别模型对于上面的例子剪枝对于某些数据不均衡的情况,可以剪枝提升法:每个模型都是根据前一个模型训练的结果最大的影响是权重,而不是顺序![在这里插入图片描述](https://img-blog.csdnimg.cn/9679d3b8926842e1a2fe9a23c94e472b.png......原创 2022-07-06 17:15:02 · 166 阅读 · 0 评论 -
【数据分析入门】python数据分析-特征预处理理论
文章目录预处理基础概念特征工程数据样本采集-抽样异常值(空值)处理特征预处理特征选择代码实现预处理基础概念特征工程数据越大,数据框架越简单数据越小,数据框架越复杂如有钱人喜欢用炸弹号,连续号数据样本采集-抽样异常值(空值)处理特征预处理特征选择离职为1,其他为0代码实现......原创 2022-04-19 12:09:38 · 1907 阅读 · 0 评论 -
【数据分析入门】python数据分析全过程梳理与代码实现
数据分析全过程梳理加python代码实现原创 2022-04-15 11:43:23 · 3149 阅读 · 0 评论 -
【数据分析入门】python数据分析-探索性数据分析之多因子与对比分析可视化
文章目录多因子与对比分析可视化理论基础假设检验与方差检验假设检验方差检验相关系数:皮尔逊、斯皮尔曼回归:线性回归PCA与奇异值分解多因子与对比分析可视化目的:展现数据全貌理论基础假设检验与方差检验假设检验根据一定的假设条件,从样本推断总体,或者推断样本与样本之间关系的一种方法。根据样本已知的分布性质来推断整体的性质假设检验的基本思想是“小概率事件”原理,其统计推断方法是带有某种概率性质的反证法。小概率思想是指小概率事件在一次试验中基本上不会发生。反证法思想是先提出检验假设,再用适当的统计方法原创 2022-04-15 11:41:02 · 1839 阅读 · 0 评论 -
【数据分析入门】python数据分析之探索分析与可视化之单因子与对比分析可视化
文章目录单因子与对比分析可视化集中趋势离中趋势数据分布:偏态与峰度三大分布抽样理论数据分类单属性分析异常值分析:对比分析:结构分析:分布分析:单因子与对比分析可视化集中趋势均值:平均数,统计学术语,是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。解答平均数应用题的关键在于确定“总数量”以及和总数量对应的总份数。在统计工作中,平均数(均值)和标准差是描述数据资料集中趋势和离散程度的两个最重要的测度值。中位数:中位数(Median)又原创 2022-04-15 11:39:33 · 887 阅读 · 0 评论 -
【数据分析入门】python数据分析之数据获取方法
文章目录数据仓库监测与抓取填写、日志、埋点计算数据仓库将所有业务数据经汇总处理,构成数据仓库1.全部事实的记录2.部分维度与数据的整理(数据集市-DM)数据库VS 仓库数据库面向业务存储,仓库面向主题存储(主题:较高层次上对分析对象数据的一个完整并且一致的描述)数据库针对应用(OLTP),仓库针对分析(OLAP)数据库组织规范,仓库可能冗余,相对变化大,数据量大监测与抓取直接解析网页、接口、文件的信息Python常用工具:urllib、urllib2、requests、scrapyP原创 2022-04-15 11:36:21 · 3076 阅读 · 0 评论 -
【数学分析入门】R语言之主成分分析与因子分析的代码实现
降维分析方法主成分分析主成分分析,PrincipalComponentAnalvsis,也简称为PCA,是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关的变量称为主成分。主成分其实是对原始变量重新进行线性组合将原先众多具有一定相关性的指标,重新组合为一组的新的相互独立的综合指标。主成分分析与因子分析步骤1、数据预处理;2、选择分析模型;3、判断要选择的主成分/因子数目;4、选择主成分/因子;5、旋转主成分/因子;6、解释结果;7、计算主成分或因子得分。这步也是可原创 2022-04-11 12:26:28 · 3372 阅读 · 0 评论 -
【数据分析入门】R语言之广义线性回归与logistics回归
广义线性回归?glmdata(breslow.dat, package="robust") names(breslow.dat)summary(breslow.dat[c(6,7,8,10)])attach(breslow.dat) > fit <-glm(sumY ~ Base + Age + Trt,data=breslow.dat, family=poisson(link="log")) > summary(fit)coef(fit)exp(coef(fi原创 2022-04-11 11:50:15 · 551 阅读 · 0 评论 -
【数据分析入门】R语言给定置信度水平及效应值的情况下计算所需样本量
功效分析功效分析,power analysis,可以帮助在给定置信度的情况下,判断检测到给定效应值时所需的样本量。反过来,它也可以在给定置信度水平情况下,计算在某样本量内能检测到给定效应值的概率。功效分析理论基础1、样本大小指的是实验设计中每种条件/组中观测的数目。2、显著性水平(也称为alpha)由l型错误的概率来定义。也可以把它看做是发现效应不发生的概率。3、功效通过减去1I型错误的概率来定义。我们可以把它看做是真实效应发生的概率。4、效应值指的是在备择或研究假设下效应的量。效应值的表达式依原创 2022-04-11 10:55:47 · 1886 阅读 · 0 评论 -
【数据分析入门】R语言入门之方差分析及应用实例
方差分析library(multcomp)attach(cholesterol)table(trt)aggregate(response,by=list(trt),FUN=mean) ##aggregate(response,by=list(trt),FUN=sd)fit <- aov(response=trt,data =cholesterol ) summary(fit)fit.lm <- lm(response=trt,data=cholesterol)fit.lmsu原创 2022-04-11 10:40:34 · 1408 阅读 · 0 评论 -
【数学分析入门】R语言一元以及多元线性回归及诊断
文章目录1 一元线性回归2 多元线性回归当各变量独立时当各变量不独立时当变量太多,组合太多时AIC比较法徒步回归法(Backward stepwise selection)全回归法3 回归诊断1 一元线性回归fit <- lm(weight~height,data=women) summary.lm(fit)fitcoefficients(fit)confint(fit)confint(fit,level=0.5)fitted(fit)residuals(fit原创 2022-04-08 13:15:34 · 426 阅读 · 0 评论 -
【数据分析入门】R语言绘图语句总结
文章目录绘图语句1.单变量散点图2.多变量散点图3.单变量直方图4.多变量直方图5.多维度直方图6.变量线性回归图绘图语句1.单变量散点图plot(women$height)plot(mtcars$cyl)2.多变量散点图plot(women$height,women$weight)3.单变量直方图plot(as.factor(women$height))plot(as.factor(mtcars$cyl))4.多变量直方图plot(as.factor(mtcar原创 2022-04-08 11:28:12 · 448 阅读 · 0 评论 -
【数学分析入门】R语言相关性分析单样本多样本
文章目录相关性分析一.单样本1.相关性分析2.偏相关性分析3.相关性检验4. 偏相关性检验二 两组样本1.参数检验-t检验相关性分析一.单样本1.相关性分析cor(state.x77)##相关性cor(state.x77, method-"spearman") ##协方差cov(state.x77)> x<-state.x77[,c(1,2,3,6)]> y<-state.x77[,c(4,5)] > cor(x,y)2.偏相关性分析偏相关原创 2022-04-08 11:00:27 · 612 阅读 · 0 评论 -
【数学分析入门】R语言独立性检验方法
卡方检验vs费希尔精确检验vs分层卡方检验一、独立性检验1.卡方独立检验2.费希尔精确检验3.分层卡法检验(CMH)一、独立性检验1.卡方独立检验卡方检验的p值越小,说明K值越大,即χ2\chi^2χ2 的值越大,说明“X与Y有关系”成立的可能性越大。library(vcd)mytable <- table(Arthritis$Treatment,Arthritis$Improved) chisq.test(mytable)fisher.test(mytable)卡方检验p值<原创 2022-04-08 10:26:07 · 2387 阅读 · 0 评论 -
【数据分析入门】R语言函数入门及常用语句
文章目录一、R函数1. 线性回归2. 概率分布函数3. 生成随机数4. 描述性统计函数5. 频数统计函数一、R函数1. 线性回归state <- as.data.frame(state.x77[,c("Murder" ,"Population","Illiteracy","Income", "Frost")])fit<-lm(Murder~Population+Illiteracy+Income+Frost,data=state)summary(fit)可以看出在P<0.00原创 2022-04-07 19:24:05 · 493 阅读 · 0 评论 -
【数据分析入门】R语言读写文本文件及RDATA文件
一、读入文件x<- read.table("input.txt") head (x) x<- read.table("input.csv") x<- read.table("input.csv",sep=",") x <- read.table("input.csv",sep=",",header =T) x<-read.table("input.test.txt",sep=",",header =T,skip=5) x<- read.table ("inp原创 2022-04-07 16:55:13 · 7682 阅读 · 6 评论 -
【数据分析入门】R语言数据缺失处理
一、数据缺失值NA代表缺失值,NA代表不可用,用来存储缺失信息二、缺失值造成的后果x<-c(NA,1:5)sum(x)三、统计函数处理缺失值x<-c(NA,1:5)sum(x,na.rm=TRUE)四、删除数据集中的缺失值1.删除包含na的行?na.omit()c<-c(NA,1:20,NA,NA)d<-na.omit(c)is.na(d)sum(d)五、插补数据集中的缺失值单个插补library(Hmisc)多重插补library(原创 2022-04-07 15:49:03 · 1208 阅读 · 0 评论 -
【数据分析入门】R语言数据类型及常见语句整理
R语言数据类型原创 2022-04-07 15:13:03 · 521 阅读 · 0 评论 -
【数据分析入门】R语言下载与R包新旧设备转移
一、R语言下载https://cran.rstudio.com/二、Rstudio下载https://www.rstudio.com/products/rstudio/download/#downloadRstudio是R语言的集成开发环境如果R语言是饭,Rstudio就是筷子不用筷子也行,可以用手(直接用R)但是为了方便,还是下载筷子(Rstudio)吧三、打开Rstudio左边是输入代码的右上角是展示环境,及变量的右下角是文件区,画图区,包管理,以及帮助区ls可以查看自己存储的原创 2022-04-07 12:33:35 · 2252 阅读 · 0 评论 -
【python+miniconda+jupyter】数据分析之全过程包括数据处理数据分布及相关性分析
一、读入excelimport pandas as pdimport numpy as np#设置画图风格与图片中文字体from matplotlib import pyplot as pltplt.style.use("ggplot")plt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode_minus'] = False#显示所有列pd.set_option('display.max_columns',原创 2022-04-02 14:52:37 · 1939 阅读 · 0 评论 -
R语言数据分析之二-《R语言判断相关性-excel文件xlsx文件》
一、处理excel复制数据,如上图所示粘贴文件另存为txt二、R语言读入install.packages("corrplot")library("corrplot")result=cor(read.table(file='C:/Users/wenxiaoyu_intern/Desktop/销量.txt',row.names=1,header=T,sep="\t"))上面XXX改成自己的路径圆形显示,饼图显示corrplot(result)corrplot(result,metho原创 2022-03-30 14:41:31 · 1078 阅读 · 0 评论 -
R语言数据分析之一-《R语言下载及读取excel导入excel》
一、下载https://mirrors.tuna.tsinghua.edu.cn/CRAN/下载自己电脑版本对应的R二、打开点他三、输入命令install.packages('xlsx')然后报错咯报错信息还安装相依关系‘rJava’, ‘xlsxjars’试开URL’https://mirrors.bfsu.edu.cn/CRAN/bin/windows/contrib/4.1/rJava_1.0-6.zip'Content type 'application/zip' l原创 2022-03-30 11:58:11 · 1511 阅读 · 3 评论 -
【vscode+jupyter+conda+python+r】系统配置详解
第一步vscode插件就安装好了,还有自己想安装的插件参考。一定要选择这个command,不然会报错。在vscode中,点击左下角。就打开vscode中的终端啦。在jupyter里面,输入。下面输入R代码就可以使用咯。文件后缀.ipynb。原创 2022-03-29 18:38:43 · 2353 阅读 · 1 评论 -
vscode调用procedure以及使用python导出mysql结果为csv
我胡汉三又回来了调用procedure:CALL `report`.`monthly_report`();检查了结果没问题下一步用python导出csv#导入pymysql方法import pymysqlimport pandas as pdimport csv#连接数据库config = {'host':'', 'port':3306, 'user':'', 'passwd':'', '.原创 2021-11-26 13:52:02 · 912 阅读 · 0 评论 -
[python+mysql+csv+vscode]使用python将csv导入mysql
费了老大劲儿了,路过的留个言呗需求:将csv数据导入mysql,数据量差不多几百W条思路:使用python导入mysql试了无数种方法显示Query OK, 0 rows affected, 0 warnings (0.80 sec)瞬间回到解放前下面上我的终极大招!!!具体实现:1.使用python将csv另存为python# _*_ coding: utf-8 _*___author__ = 'wenshuaishuai'__date__ = '2021/1..原创 2021-11-25 18:22:20 · 1236 阅读 · 0 评论 -
安装muggle_ocr完整记录(conda+vscode)
第一步:conda install tensorflow=1.14.0第二步:pip install muggle-ocr -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com成功原创 2021-11-23 18:41:09 · 958 阅读 · 0 评论 -
st_aggrid pip下载失败问题
问题pip下载失败解决方法:https://pypi.org下载好tar文件后解压到conda文件下site-package里面然后打开刚才解压的文件执行下面语句python setup.py installerror: Could not find suitable distribution for Requirement.parse('streamlit>=0.87.0')遇到错误,按照错误提示,下载他需要的版本即可,可能版本过高,需要重新卸载在下载...原创 2021-11-02 11:26:37 · 1013 阅读 · 0 评论 -
pip问题解决
问题:ERROR: Could not find a version that satisfies the requirement streamlit-aggrid (from versions: none)ERROR: No matching distribution found for streamlit-aggrid解决方法:pip install XXX -i http://pypi.douban.com/simple/ --trusted-host pypi.douban..原创 2021-10-29 15:09:07 · 555 阅读 · 0 评论