
数据分析入门
文章平均质量分 62
行秋即离
若你困于无风之地
展开
-
Python数据清洗工具之Numpy
1. Numpy(Numberical Python)Anaconda中已经集成了NumPy,可以直接使用。如果想要自行安装的话,可以使用流行的Python包安装程序 pip 来安装 NumPy,目前使用的是Anaconde的环境进行学习和使用这个库1.1 这库的安装方法CMD :pip install numpy或者使用清华源的镜像库:pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple(直接复制可用)如果想查看这个库的.原创 2021-04-21 20:35:21 · 1799 阅读 · 2 评论 -
关于R语言的绘图包ggplot2参数
ggplot2在R语言中ggplot2是一个用来绘制图形的R包,gg的意思是Grammer of Graphics,意思就是绘图的语法,作者是Hadley Wickham,这个大神也是统计学诺贝尔奖的获得者ggplot2的核心理念是将绘图与数据分离,数据相关的绘图与数据无关的绘图分离ggplot2的原理是按照图层作图的ggplot2是保有命令式作图的调整函数,使其更具有灵活性ggplot2将常见的统计变换融入到绘图当中这个库的逻辑在我看来式真正实现一个图层叠加的概念:一句话代表一张图,然后最原创 2021-01-24 14:19:56 · 6858 阅读 · 0 评论 -
单/多因素协方差分析
(1)单因素协方差分析当我们的数据不是很独立,难以避免的有一些相关关系,所以得用到协方差分析R语言有一份自带的数据集,叫litter这个数据是研究不同的药物剂量对于老鼠体重的影响,这里面的dose是剂量的意思,weight是体重的意思,其中dose是自变量weight是因变量,gesttime是一个小老鼠处在母老鼠中的孕期时间,不同的孕期时间对于出生后的小老鼠的体重也有一定的影响,但是并不是研究的主因素,所以这个定义为协变量所以,我们需要用到协方差分析,对这个协变量进行控制同样的是采用原创 2021-01-23 15:20:20 · 5581 阅读 · 0 评论 -
Tobii pro lab学习笔记2_数据可视化
数据可视化可视化分为两大类,第一类是Heatmap热点图,第二类是Gaze plot轨迹图对于热点图:颜色越深的地方,被试观察的越久关于热点图的记录类型,有四种,绝对次数,相对次数,绝对注视时长,相对注视时长:绝对和相对的区分在被试在同一个刺激物上面是否是相同观看了相同的时间,次数和注视时长的区分在于刺激材料的种类不同,如果是文字类的一般选择count类型,如果是图片类的刺激材料,一般选择duration类型对于Gaze plot轨迹图,圆圈越大注视的时长就越长,数值也越大如果有多个被试原创 2021-01-08 22:32:12 · 3017 阅读 · 2 评论 -
Tobii pro lab学习笔记1
Tobii Pro Lab版本1.152数据回放功能一、概览当我们把需要收集的数据导入到已经创建好的project中,可以看到每一条记录的情况进入到我们具体的记录内容上面之后到这个页面:在右侧,是对gaze data的一些基本介绍,可以看到这个记录的基本记录信息,并且可以通过调整屏幕上gaze点的显示外观,颜色,大小,透明度等信息二、Gaze data数据过滤的算法选择Gaze数据的过滤算法的不同是根据眼球转动的角速度进行数据筛选,点击右上角的齿轮,可以看到这个算法的一些细节,一般原创 2021-01-08 22:04:28 · 4129 阅读 · 2 评论 -
常用的统计分析方法
分析方法频率分析主要用于查看数据基本分布特征,数据清晰,各种统计量、基本报告数据源等数据探索探索性分析主要是从统计的角度查看统计量来评估数据分布,主要用于异常值侦测、正态分布检验、数据分段、分位点测算等交叉表分析交叉分析、是市场研究的主要工作,大部分研究分析均使用,主要用于分析报告和分析数据源,各种图表等,当然其中也有卡方检验和T检验,寻找差异表(Table)分析类似于Excel的数据透视表,连续数据和离散数据均可使用,也可以用作卡方检验和T检验卡方检验它属于非参数检验的范畴,主要是比较原创 2020-12-27 12:53:30 · 9649 阅读 · 0 评论 -
方差分析
方差分析基本术语实验设计和方差分析都有自己相应的语音。我们需要对一些重要的术语进行回顾,将有助于后续内容的理解和学习。为了研究某种药物对某种癌细胞株增值影响的研究为例例子:现在有两种药物:新研究的药物(Treat drug)和对照组药物(Control Drug),我们提取培养的10哥癌细胞株作为研究的对象,随机分配一般的癌细胞株接受为期96h的TreatDrug治疗,另外一半接受为期96h的Control Drug治疗。研究治疗结束的时候,对两组细胞株的细胞抑制率进行评估在这个实验中,治疗方案(Tr原创 2020-12-24 22:37:01 · 2083 阅读 · 1 评论 -
统计学假设检验和建模
1.经典t检验让我们在两个不同的场合下对一个赛车对的表现进行衡量,在第一次比赛中,团队的成员的得分为[79,100,93,75,84,107,66,86,103,81,89,105,84,86,86,112,112,100,94],在第二次比赛中,他们的得分为[92, 100, 76, 97, 72, 79, 94, 71, 84, 76, 82, 57, 67, 78, 94, 83, 85, 92, 76, 88]可以用下面的python语句生成这些数据并且用t检验来比较两组数据import n原创 2020-12-23 15:17:39 · 953 阅读 · 0 评论 -
两组之间的非参数检验:Mann-Whitney检验
Mann-Whitney检验曼-惠特尼U检验又称“曼-惠特尼秩和检验”,是由H.B.Mann和D.R.Whitney于1947年提出的。它假设两个样本分别来自除了总体均值以外完全相同的两个总体,目的是检验这两个总体的均值是否有显著的差别。可以看作是对两均值之差的参数检验方式的T检验或相应的大样本正态检验的代用品。由于曼-惠特尼秩和检验明确地考虑了每一个样本中各测定值所排的秩,它比符号检验法使用了更多的信息。如果两组的测量不是正态分布的,我们必须借助于非参数检验。比较两个独立组别最常用的非参数检验是M原创 2020-12-23 14:41:16 · 18744 阅读 · 1 评论 -
Wilcoxon符合秩和检验
在非正态分布的数据中,我们不应该使用单样本t检验(尽管这个检验对于偏离正态性相当稳健),相反,我们必须使用均值的非参数检验方法。我们可以进行Wilcoxon符号秩和检验。注意和单样本t检验不同,该检验检查是否有差异:(rank, pVal) = stats.wilcoxon(data-checkValue)该方法有3个步骤:计算每个观测值和感兴趣的值的差异;忽略差异的符号,将他们按照大小排序;将所有负(或正)秩次的秩次加起来,也就是那些低于(或高于)选定的假设值的秩次。在下面的表格中,你可原创 2020-12-23 14:32:19 · 9836 阅读 · 0 评论 -
统计分析__卡方分布
卡方分布卡方分布是以一种很简单的方式和正态分布产生关联:如果一个随机变量X服从标准正态分布,那么X^2服从卡方分布,其自由度是1,n个独立的标准正态随机变量的平方和有n个自由度在这里插入图片描述举例一个药品制造商接到一个药品订单,需要发货的药品的标准差为0.05。从下一批次的药品开始,n=13的随机样本重量为3.04g, 2.94g, 3.01g, 3.00g, 2.94g, 2.91g, 3.02g, 3.04g, 3.09g, 2.95g, 2.99g, 3.10g, 3.02g。问题:标原创 2020-12-23 13:41:33 · 3655 阅读 · 0 评论 -
统计学__形状参数
分布形状的参数描述对于连续分布函数的特征是他们的位置和尺度。举两个例子:对于正态分布,(位置、形状)是由分布的(均值、标准差)给出的;对于均匀分布,它们由分布不同于零的范围(开始/开始—结束)给出的位置一个位置参数X0确定分布的位置或改变:位置参数的例子包括均值、中位数和众数综上可以简单理解成,这个分布的大概位置在哪里,还有就是分布的一些基本位置参数是什么尺度尺度参数描述了概率分布的宽度。如果尺度参数s较大,则分布将更加分散;如果s较小,则它将更加集中。如果s的所有的值都存在概率密度,那么原创 2020-12-23 13:12:38 · 6870 阅读 · 0 评论 -
眼动数据分析基础_02
1.眼动指标的具体使用以及解释(Metrics & Interpretation)在我们论文的研究中,需要使用下面一些关于眼睛数据的指标扫视(Saccade)次数:反映了眼球在需要目标总的搜查时间的长短扫视(Saccade)幅度:反映了在注视点附近多远有意义的区域注视(Fixation)次数:某个位置的注视次数反映了该位置的意义程度etc2.眼动数据的统计分析(Statistical analysis)如果是Percentage类的数据可以使用下面的思路进行统计分析Solut原创 2020-12-16 14:48:11 · 5307 阅读 · 0 评论 -
协方差分析
协方差(一)协方差分析基本思想通过上述的分析可以看到,不论是单因素方差分析还是多因素方差分析,控制因素都是可控的,其各个水平可以通过人为的努力得到控制和确定。但在许多实际问题中,有些控制因素很难人为控制,但它们的不同水平确实对观测变量产生了较为显著的影响。例如,在研究农作物产量问题时,如果仅考察不同施肥量、品种对农作物产量的影响,不考虑不同地块等因素而进行方差分析,显然是不全面的。因为事实上有些地块可能有利于农作物的生长,而另一些却不利于农作物的生长。不考虑这些因素进行分析可能会导致:即使不同的施肥量转载 2020-12-13 22:45:03 · 4424 阅读 · 0 评论 -
数据分布和统计分析
1、t检验两个均值差异与否:比较两样本连续的均值,以检验两均值的差异是否大于能被随机猜测所解释的差异应用条件观测值相互独立从正态分布的总体种抽样得到样本数据<30;如果>30,则使用正态曲线的z检验分类单样本t检验:某样本变量均数与给定总体一直均数相比是否有差异(网传正常成年人步速5km/h,对某大学生取样比较)独立样本t检验:检验由两独立样本估计的总体均数之间是否有差异(比较某一大学生男生和女生比较)配对样本t检验:检验两个相关样本估计的总体均数之间是否有差异(比较某转载 2020-12-13 22:20:30 · 2281 阅读 · 0 评论 -
统计方法基础
(1)数据的类型按照测量尺度分类名义变量(Normal Variable)举例:性别,人种无大小顺序等级之分顺序变量(Oridinal)举例:教育程度,喜好程度有大小顺序之分,差距不一定相同等距\区间变量(Interval Variable)举例:摄氏温度差距相同,任意零点,不能算倍数等比\比例变量(Ratio Variable)举例:绝对温度、身高、体重绝对零点,可算倍数/比率按照性质分类类别型(Categorical)数值型(Numerical)原创 2020-12-13 00:02:56 · 2293 阅读 · 1 评论 -
MySQL Community Server 8.0.22安装教程
首先需要下载需要的包:链接:https://dev.mysql.com/downloads/mysql/安装图的设置选择第一个download,第二个434m的有个测试包,不建议大家下载下载好之后解压缩到准备安装的目录里面然后再新建一个txt文件:复制粘贴下面内容:[mysqld]设置3306端口port=3306设置mysql的安装目录(这里是填写自己的安装目录)basedir=D:\Mysql\mysql-8.0.19-winx64设置mysql数据库的数据的存放目录(这里是在上原创 2020-11-30 14:09:57 · 3436 阅读 · 0 评论 -
Python的print函数怎么覆盖打印
覆盖打印就是让每一次的print之后,让光标回到本行行首因为print函数是默认输出之后光标调到下一行例子:如果我不想让它调到下一行:例子:如果想覆盖打印,让光标回到行首例子:原创 2020-11-28 11:49:35 · 12422 阅读 · 0 评论 -
EEGLAB安装以及pathdef问题解决
EEGLAB工具包的下载这里放一个EEGLAB的官网链接:EEGLAB官网进去之后,点击右侧的download划重点,划重点这里随便填写就行了,邮箱使用自己的邮箱,最下面的大格子就写EEG research或者任何单词都可以,然后只需要购选下面最后一个勾勾就行了,最后点击submit然后下载对应的版本(如果英文阅读有困难的可以使用谷歌浏览器翻译哦~)下载好EEGLAB之后就开始安装啦~~将下载好eeglab放到自己安装的对应路径:注意:最后将解压好的EEG工具箱改名为下图这个eegl原创 2020-11-27 11:27:45 · 4556 阅读 · 1 评论 -
python的pandas库的pd.read_excel()常用解析
在我们日常当中,CSV格式的文件占大多数,但是我们也经常读入EXCEl表格文件,接下来我们聊聊常用的pd.read_excel()函数的常用参数首先,认识一下pd.read_excel(),函数的官方文档是这么说的:将Excel文件读取到pandas DataFrame中,系统默认支持‘xls’和‘xlsx’后缀的文件名,函数都可以处理,看一下这个函数的所有参数:参数实在是太多了把,我们看看常用的把:io参数(1)这个参数可以接受的有:字符串str,excel文件,或者路径对象,一般是路径+.原创 2020-11-26 21:30:04 · 18975 阅读 · 0 评论 -
SQL学习笔录3
原创 2020-11-26 17:53:12 · 93 阅读 · 0 评论 -
SQL学习笔录2
原创 2020-11-25 22:54:30 · 89 阅读 · 0 评论 -
统计学的基本概念
本文讲述了数据分析师应当了解的五个统计基本概念:统计特征、概率分布、降维、过采样/欠采样、贝叶斯统计方法。从高的角度来看,统计学是一种利用数学理论来进行数据分析的技术。象柱状图这种基本的可视化形式,会给你更加全面的信息。但是,通过统计学我们可以以更富有信息驱动力和针对性的方式对数据进行操作。所涉及的数学理论帮助我们形成数据的具体结论,而不仅仅是猜测。利用统计学,我们可以更深入、更细致地观察数据是如何进行精确组织的,并且基于这种组织结构,如何能够以最佳的形式来应用其它相关的技术以获取更多的信息。今天,我们原创 2020-11-24 21:53:32 · 679 阅读 · 0 评论 -
数据分析路线总结——工具(2)
(1)SQL结构化查询语言(Structured Query Language)简称SQL,是一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。结构化查询语言是高级的非过程化编程语言,允许用户在高层数据结构上工作。它不要求用户指定对数据的存放方法,也不需要用户了解具体的数据存放方式,所以具有完全不同底层结构的不同数据库系统, 可以使用相同的结构化查询语言作为数据输入与管理的接口。结构化查询语言语句可以嵌套,这使它具有极大的灵活性和强大的功能。这里分原创 2020-11-24 11:26:23 · 222 阅读 · 0 评论 -
数据分析路线总结——工具(1)
(1)概率论和统计基础关于基础是每个新手小白的必修课,高中和大学(理工科)应该大部分都有学过,如果以前没有学过的可以花时间系统的学习一下(看个人时间安排,时间太紧的话可以针对性的学习)1.统计均值,众数,标准差等图形表示(箱型图,直方图等)样本和总体(样本估计总体,置信区间,标准误、中心极限定理等)数据分布(二项分布,正态分布等)线性回归,相关分析等这里收集了一份有利于新手的统计视频系统教学,建议可以花一周的时间学习下可汗学院统计公开课2.概率基本概率,简单概率独立事件等这里也收集原创 2020-11-23 23:51:38 · 234 阅读 · 0 评论