
数据挖掘&机器学习
iteye_773
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
t统计量和z统计量
z统计和t统计可以用来检验两个平均数之间差异显著的程度,z适合大样本的情况(样本数大于30),t适合小样本的情况。z检验的步骤:第一步:建立虚无假设 H0:μ1 = μ2 ,即先假定两个平均数之间没有显著差异, 第二步:计算统计量Z值,对于不同类型的问题选用不同的统计量计算方法, 1、如果检验一个样本平均数()与一个已知的总体平均数(μ0)的差异是否显著。其Z值计算公式为:...原创 2013-05-06 20:03:20 · 31817 阅读 · 1 评论 -
标准差(standar deviation)和标准误(standar error)
在日常的统计分析中,标准差和标准误是一对十分重要的统计量,两者有区别也有联系。但是很多人却没有弄清其中的差异,经常性地进行一些错误的使用。对于标准差与标准误的区别,很多书上这样表达:标准差表示数据的离散程度,标准误表示抽样误差的大小。这样的解释可能对于许多人来说等于没有解释。其实这两者的区别可以采用数据分布表达方式描述如下:如果样本服从均值为μ,标准差为δ的正态分布,即X~N(μ, δ2),...原创 2013-07-02 15:10:44 · 2174 阅读 · 0 评论 -
加载distribute cache过大
为了节省一步join的MR,使用distribute cache把小文件加载到内存,分析的数据实在过大,导致特征词统计的小文件也可能要达到600M左右,解决办法两种:1.调整数据结构,减少内存中的数据条数;2.改用join的方式加载入数据...2012-11-26 21:09:47 · 194 阅读 · 0 评论 -
tf-idf的问题
传统的tf-idf计算需要有4个MR完成,其中计算逆向文档频率时候对于文档数在百万级别以下的,中间数据可以直接放内存的hashmap,但是文档数千万或上亿,可能会导致内存溢出,这时候计算方式要不同,把|d|的数量单独输出,增加一个步骤把|d|和之前的数据做join。...2012-11-26 21:14:56 · 195 阅读 · 0 评论 -
数据分析中的分词
数据分析的其中一个步骤是对输入内容分词,内容中可能含有垃圾词或无意义词或分词分错的,因此用停用词词典和几个正则表达式进行过滤,之前处理的量级大约是10G这个量级,处理速度挺好。 这次增加很多数据源,处理量级上升到1T级别,这些分析处理的速度明显感觉很慢,通过性能分析发现用正则表达式来match,判断是否是垃圾词的方式性能比较差,如果去除这些正则,处理速度能提高一倍,试着把各...原创 2012-12-04 15:32:30 · 502 阅读 · 0 评论 -
hadoop JOB的性能优化实践
使用了几个月的hadoopMR,对遇到过的性能问题做点笔记,这里只涉及job的性能优化,没有接触到hadoop集群,操作系统,任务调度策略这些方面的问题。hadoop MR在做大数据量分析时候有限的计算资源情况下只能不断的优化程序。优化可以从两个方面进行:1.hadoop配置2.程序代码程序代码包括的方面很多:job设计,算法,数据结构,代码编写。hadoop配置优化...2012-12-26 21:10:26 · 201 阅读 · 0 评论 -
Combiner 出现的问题
使用了combiner来聚合mapper端一些数据,发现个诡异的问题,输出到reducer端的数据总是时好时坏,找了两天终于发现原来combiner可能会在mapper端多次执行,如果mapper端数据比较大,combiner可能就会分多次被执行,hadoop文档中也有说明combiner可能被执行也可能不被执行,要求mapper输出数据格式和combiner输出一致。改了下输出格式,问题没...2013-02-05 18:29:41 · 554 阅读 · 0 评论