数据处理
文章平均质量分 95
算法小白_gyl
这个作者很懒,什么都没留下…
展开
-
文本分类问题中数据不均衡的解决方法的探索
Data Skew数据倾斜是数据挖掘中的一个常见问题,它严重影响的数据分析的最终结果,在分类问题中其影响更是巨大的,例如在之前的文本分类项目中就遇到类别文本集合严重不均衡的问题,本文主要结合项目实验,介绍一下遇到数据不均衡问题时的常见解决方法。数据倾斜的解决方法1.过采样和欠采样过采样 过采样是处理样本不均衡的一个基本解决方法,其实现简原创 2018-01-11 16:24:13 · 7796 阅读 · 10 评论 -
文本分类中的文本特征表示
Introduce 文本话题分析文本分类的一个应用领域,主要是针对文本表现的主题的划分。目前,针对文本话题分类的研究还是很热的,主要包括微博,知乎等大型话题社区,论坛类网站。之前知乎针对该问题在著名的机器学习比赛网上,还开展了比赛,有关技术和code有很多。文本话题分析主要是应用是对文本进行领域划分、个性化推荐、社交网络、广告预测等各个领域等。而特征选择会对分类结果产生极大的影响。因此,原创 2018-01-11 16:49:45 · 13092 阅读 · 5 评论 -
Spark-job计算之——数据倾斜问题
spark在大数据处理各项业务中扮演着越来越重要的角色,基于内存的计算方式,处理任务效率高。但是由于业务问题和程序处理问题,有时会遇到各种各样的问题,其中包含数据倾斜,任务倾斜,GC等各种问题。本文主要根据个人在业务数据处理中遇到的数据倾斜问题以及解决方法。本文是对数据倾斜问题的一点个人认识和总结,希望能对各位有点帮助,于此同时,本人是大数据算法方面的新人,行文处如存在任何不足和缺陷请各位...原创 2018-05-04 23:07:41 · 367 阅读 · 1 评论 -
spark 资源优化之道
在spark job执行中,我们通常会遇到这样那样的奇怪问题。该节主要介绍开发部署中遇到的一些资源分配问题。如:资源不足,资源分配过多,队列紧张等很多很多问题。在工程实践中,我们都希望自己的job 能够以最快的速度,最优的流程执行,以提高我们效率。于是乎我们往往在spark job提交的配置脚本中配置的job的资源越多越好,这就带来的一个问题,集群资源有限,可用资源不能够满足大资源的job...原创 2018-07-31 20:18:50 · 212 阅读 · 0 评论 -
Spark 问题汇总
在大数据领域,spark 是一个比较受欢迎的大数据处理平台,但是由于数据量过大等一系列问题,造成任务执行不成功,现在总结个人在工程实践中遇到的一些个奇葩问题.1.数据倾斜问题现象:1.可能会报资源不足,内存溢出2.大部分task 均执行完,只有少数几个task始终在执行中3.2.Kyro 序列化问题现象:1.报异常:| org.apache.spark.SparkExcepti...原创 2019-06-05 17:57:50 · 522 阅读 · 0 评论