- 博客(20)
- 收藏
- 关注
原创 主题词、关键词、特征词,不再傻傻分不清
在文本处理中,特征词是指那些出现在文本中的,用于区别该文本与其它文本不同的那些词。特征词起到表征(不是表达)该文本的作用。特征词也属于自然语言的范畴,未经规范化处理,也不受主题词表的控制。比如在语料库中,!这个字符仅出现在文本t中,那么!就可以作为文本t的特征词,尽管它并没有体现文本语义的作用。根据以上论述,我们可以看出,主题词可以理解为对关键词的规范化与精炼化的结果,是对整个文本高纯度提纯的结果。而特征词仅仅就是一种标志物提取。因此就自然语言处理而言,提取特征词难度是最小的;
2024-03-17 14:23:52 1481
原创 数据分析为何要学统计学(10)——如何进行比率检验
比率检验是通过样本推测某种事件的总体占比水平。要求事件仅有互斥的两种情况,即,概率分别为p与1-p。比率检验分单样本和双样本两种情况,以下我们分别介绍。
2023-12-17 11:16:00 1183
原创 数据分析为何要学统计学(2)——如何估计总体概率分布
第二步,确定几个与之相近的候选概率分布(一般3个左右)。从上图来看,可以选择卡方分布、指数分布、伽玛分布。第一步,我们采用Seaborn软件的histplot函数建立核密度图(一种概率密度图)。第三步,分布拟合这三个候选分布的参数,并使用拟合得出的分布参数检验每一个候选分布。我们可以通过手头掌握的样本来估计总体的概率分布。这个过程由以下步骤组成。第四步,选择p值(每一个值)最大的作为检验结果。从以上数据可以看出,样本最大可能是参数。而事实上,原始样本确实是以。
2023-12-14 00:01:56 914
原创 数据分析为何要学统计学(12)——如何进行时间序列分析
该方法是一种把时间序列分解为趋势项(trend component)、季节项(seasonal component)和残差项(remainder/residual component/random)的过滤过程。STL算法在1990年由密歇根大学的R. B. Cleveland教授以及AT&T Bell实验室的W. S. Cleveland等人研发。可以看人口出生在第38个月左右后出生有明显上升趋势,而且从每年3月-6期间,出生人口开始进入高峰期,从8月份左右开始出生人口急速下降。
2023-12-11 21:29:15 328
原创 数据分析为何要学统计学(4)——何为置信区间?它有什么作用?
比如工厂要确定95%置信水平下的产品成份含量的置信区间,但手里只有20个样本数据,如何来估计总体的成分含量呢?根据中心极限定理,这30个样本服从正态分布,于是我们就可以用这30个样本均值的均值及标准差,来估计总体的成分含量区间了。通俗一点讲,如果置信度为95%(等价于显著水平a=0.05),置信区间为[a,b],这就意味着总体均值落入该区间的概率为95%。一般情况下当我们抽样的数量大于等于30时,可认为样本均值服从正态分布,以此我们通过查标准正态分布表,或者显著水平a下的z值,然后即可获得置信区间。
2023-12-11 20:42:16 1246
原创 数据分析为何要学统计学(11)——如何进行回归分析
回归分析(regression analysis)是量化两种或两种以上因素/变量间相互依赖关系的统计分析方法。回归分析根据因素的数量,分为一元回归和多元回归分析;按因素之间依赖关系的复杂程度,可分为线性回归分析和非线性回归分析。我们通过一下两个例子介绍如何使用python完成回归分析。在python中有多个软件包可以用于回归分析,在这里我们选择 sklearn软件包中的LinearRegression训练算法,之所以选择该算法是因为它支持多元回归,还可以用于非线性回归分析(多项式回归)。
2023-12-11 19:35:36 360
原创 数据分析为何要学统计学(0)——如何提高数据样本质量
但高水平的研究成果都会以很大的篇幅描述数据的构成及获得过程,以些来突出研究工作的真实性、可靠性、科学性。比较典型的是,一篇优秀的学术论文,Data、Method和Discussion是最核心的部分。不过在计算机的帮助下,抽样工作量已经可以忽略不计,在数据量已经不是问题的前提下,尽量选择低误差的抽样方法是样本质量的重要保障。抽样一是为了降低数据分析的工作量,二是消除人为干预数据供应的情况,同时还可以降低随机误差的不良影响。我们可以从样本产生的各各环节下手,找出影响样本质量的关键活动,有的放矢地解决这个问题。
2023-12-11 11:55:21 758
原创 数据分析为何要学统计学(9)——总体不服从正态分布时使用什么假设检验方法进行均值检验?
大多数情况下,我们都假设样本所在总体服从正态分布,然后使用t检验、方差分析等假设检验方法。但是总体如果不服从正态分布,那么就得使用非参数检验方法,如Mann-Whitney U检验和Wilcoxon秩和检验。其中Mann-Whitney U检验适用于独立双样本的情况,Wilcoxon秩和检验适用于配对双样本的情况。Mann-Whitney U检验和Wilcoxon秩和检验还支持单侧检验,来比较两组样本均值的大小。此时使用alternative参数定义备择假设的方向(less或greater)。
2023-12-10 16:11:06 946
原创 数据分析为何要学统计学(8)——什么问题适合使用方差分析?
方差分析(ANOVA,也称变异数分手)是英国统计学家Fisher(1890.2.17-1962.7.29)提出的对两个或以上样本总体均值进行差异显著性检验的方法。它的基本思想是将测量数据的总变异(即总方差)按照变异来源划分为,进行估计,从而确定差异的显著性。根据考虑因素的数量,可方差分析分为单因素方差分析、二因素方差分析和多因素方差分析。方法分析使用的前提条件与t检验相同,也需要满足样本的要求。以下我们分别对单因素方差分析和多因素方差分析进行介绍。
2023-12-09 16:12:04 884
原创 数据分析为何要学统计学(7)——什么问题适合使用t检验?
t检验(Student's t test),主要依靠总体正态分布的小样本(例如n < 30)对总体均值水平进行差异性判断。t检验要求样本不能超过两组,且每组样本总体服从正态分布(对于三组以上样本的,要用方差分析,其他文章详述)。因。如果有不服从正态分布的情况,可以考虑使用和后面单独文章介绍。需要说明的是t检验还分为和,适用条件也各有不同,以下分别举例介绍。
2023-12-08 16:16:35 1381
原创 数据分析为何要学统计学(6)——什么问题适合使用卡方检验?
首先,从技术角度来看,(1)卡方检验的样本涉及的因素(也就是变量)需要两个(含)以上,而且是定性变量(分类变量,定类变量),其值可以是数字,也可以符号,但是即使是数字也不具备数量的含义,只是用于区分。(2)其样本数据是由多个因素在不同水平(取值)情况下共同决定的数据,直观上表现为列联表(交互分类表,交叉表),形如下表。上表涉及的因素(变量)有两个,分别是地区和满意度,其值分别是[北京,上海]和[满意,一般,不满意]。而样本是由两个变量的不同取值作用下的统计数据,可以是总和,也可以是平均数,或者其他统计量。
2023-12-07 18:37:10 1084
原创 充满魔性的人工神经网/深度学习,其实并不万能,也不可靠
谈到机器学习,很多人自然会联想到人机对弈、自动驾驶、图像识别、疾病诊断等领域的成功案例。人工神经网络的超人般的能力令人咂舌。但是很少有人想到人工神经网络预测结果的高风险性。从人工神经网的基本原理上来看,无论识别图像、听懂语音,在这些高维大数据情境中,神经网络技术总能输出一些很不错的结果,而其它机器学习算法/模型确实做不到!但还是没人解释的清,神经网它到底是怎样做到的。人工神经网的训练过...
2019-08-04 12:09:56 306
原创 聚类分析如可确定最佳的聚类簇数?
聚类与分类的不同在于,聚类所要求划分的类是未知的。也就是说我们对样本数据的划分是不了解。聚类分析的任务就是要明确这个划分。例如我们采集到很多未知的植物标本,并对每株标本的植物学特征进行了记录、量化。那么这些植物标本到底是几个物种呢?聚类分析就可以解决这个问题。当前在机器学习领域涌现了许多优秀的聚类分析算法供我们使用,如k-means、DBSCAN、AGNES等。通过使用这些成熟的算法,我们...
2019-07-23 17:21:47 18552 5
原创 长话短说stacking集成学习算法,保证你能看得懂(3)
这是在乳腺癌数据集的的stacking集成学习案例读入样本数据import warningswarnings.filterwarnings(“ignore”)from sklearn import datasetsfile=datasets.load_breast_cancer()X=file[“data”]y=file[“target”]#拿出20%,用作测试数据分拆为...
2019-07-22 21:10:42 1209 2
原创 长话短说stacking集成学习算法,保证你能看得懂(2)
第一步,进行初级学习,生成次级学习器的训练集(X_train_new,y_train)和测试集(X_test_new,y_test)(篇幅所限,我们在此假设每个基模型都是经过参数调优处理的优良模型,具体如何进行参数优化请参见相关文献)如上所述,次级学习器的训练集的X_train_new,测试集X_test_new是初级学习的预测结果组合生成,而y_train与y_test(其实在stack...
2019-07-22 20:46:11 2633
原创 长话短说stacking集成学习算法,保证你能看得懂(1)
Stacking是集成学习算法中一朵奇葩,只所以这样说,是因为它没有走Majority投票法和均值法的寻常路,但是集成学习的效果却非常优异,以致于成为各类机器学习竞赛中主流的技术。目前网上充斥着各种学习心得和使用方法,不能说它们写得不好,只是大多数不太好懂。我也是看着别人的文章学会stacking的。现在我想努力把stacking说得更明白些,让喜欢尝试它的人更容易上手。要想学会stack...
2019-07-22 20:09:13 818
原创 杀手级AI补代码工具来了!可是初学者最好离远点
据报道,一位来自加拿大的大四学霸,开发了一个“Deep TabNine"代码补全工具,支持23种编程语言,5种编辑器,而且使用非常简单,效果惊艳。不少使用过的网友纷纷点赞:TabNine是他们使用过的最好的代码补全工具,属于程序员杀手级的应用。在VS Code扩展商店里,TabNine已经被下载1.3万+次,获得全5星好评。像我们常用的Java,C++, Python都在它支持的范围之内。...
2019-07-16 22:39:24 1117
原创 数据分析为何要学统计学(5)——相关性分析方法有哪些?如何选择?
相关性分析是量化不同因素间变动状况一致程度的重要指标。在样本数据降维(通过消元减少降低模型复杂度,提高模型泛化能力)、缺失值估计、异常值修正方面发挥着极其重要的作用,是机器学习样本数据预处理的核心工具。样本因素之间相关程度的量化使用相关系数corr,这是一个取之在[-1,1]之间的数值型,corr的绝对值越大,不同因素之间的相关程度越高——负值表示负相关(因素的值呈反方向变化),正值表示正相关...
2019-07-13 13:44:30 23879 1
原创 数据分析为何要学统计学(3)——什么是集中趋势和离散趋势
给定一组数据,我们怎么来判断业务的基本情况呢?此时我们主要用到两个统计学工具:集中趋势和离散趋势。1. 集中趋势集中趋势是一组数据的代表值,那用什么值作代表最有代表性呢?当然这个值应该和所有值差距不大是最好,此时我们首先想到的就是平均数,事实上,用来衡量集中趋势的最常用指标就是平均数,当然有时我们也使用中位数。平均数和中位数一般是不同的,除非样本呈正态分布。如果衡量集中趋势的指标选择不合理,...
2019-07-12 23:16:22 17346 1
原创 数据分析为何要学统计学(1)——什么是概率分布
进行数据分析、数据挖掘/机器学习都需要掌握统计学基本知识,这是为什么呢?首先一个主要的原因就是因为统计学就是关于数据分析的科学,所有设计数据分析的操作,都会以统计为基础。今天我们就来细说一下哪些统计操作在数据分析、机器学习中最常用。首先先来说一下样本分布吧。分布是统计学中描述性统计分析的基本工具。分布反应了样本取值的基本规律,简单一点来说就是哪些值被用得多,哪些值被用得少。反应到业务上,就是...
2019-07-10 16:50:05 2838 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人