大数据
文章平均质量分 53
starxhong
毕业于华中科技大学,具有模式识别与智能系统硕士学位,现从业于广告智能推荐领域。
展开
-
推荐系统中的最小样本量和参数估计
点估计和区间估计假设数据总体数量是N,总体均值u,总体标准差σ,样本大小是n,样本均值u’,样本标准差σ’,样本中符合条件A的占比(比如推荐系统中点击占比):p’点估计从总体中抽取一个样本(batchsize=n),得到样本均值u’,样本标准差σ‘,(推荐系统中)样本点击率ctr等,这些样本参数都是对总体的一个点估计。标注误差SE抽取n个样本,分别计算其均值u’1,u’2,…这些值的...原创 2020-02-05 18:59:03 · 6787 阅读 · 0 评论 -
翻译-In-Stream Big Data Processing 流式大数据处理
原文:http://highlyscalable.wordpress.com/2013/08/20/in-stream-big-data-processing/作者:Ilya Katsov相当长一段时间以来。大数据社区已经普遍认识到了批量数据处理的不足。非常多应用都对实时查询和流式处理产生了迫切需求。近期几年,在这个理念的推动下。催生出了一系列解决方式。Twitter St转载 2017-08-08 09:39:58 · 466 阅读 · 0 评论 -
Hadoop机架感知(rack-aware)配置
副本的存放策略又是HDFS实现高可靠性和搞性能的关键,优化的副本存放策略也正是HDFS区分于其他大部分分布式文件系统的重要特性。HDFS采用一种称为机架感知(rack-aware)的策略来改进数据的可靠性、可用性和网络带宽的利用率。大型HDFS实例一般运行在跨越多个机架的计算机组成的机群上,不同机架上的两台机器之间的通信需要经过交换机,这样会增加数据传输的成本。在大多数情况下,同一机架内的两台机器...转载 2018-06-07 19:23:09 · 3439 阅读 · 0 评论 -
Maven入门
一,Maven是什么?总体来说,Maven是Apache 组织下一个基于Java平台的跨平台项目管理工具。具体包含3大功能:1,项目构建工具。项目构建包括清理、编译、测试、打包、部署等。常用的构建工具还有Make和Ant:Make产生较早,缺点是不能跨平台以及语法复杂;Ant是Apache 组织下的一个跨平台的项目构建工具,它基于任务和依赖的构建系统,是过程式的。开发者需要显式地指定每一个任务,每...原创 2018-06-10 21:21:01 · 203 阅读 · 0 评论 -
hive lateral view语句
原文地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LateralView#lateral view用于和split, explode等UDTF一起使用,它能够将一列数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。一个简单的例子,假设我们有一张表pageAds,它有两列数据,第一列是pageid ...转载 2017-06-28 10:08:07 · 295 阅读 · 0 评论 -
推荐算法中模型评估标准——AUC和 NE
广告电商等推荐算法中,评估模型质量的指标,目前用的较多的有:AUC,NE, Bias.AUC(area under curve): 名字曲线下面积,曲线指的的是ROC曲线,ROC曲线如下图(a)所示,其中横坐标是假正率(负样本预测为正的比率),纵坐标是真正率(正样本预测为正的比率),很显然,假正率越低同时真正率越高的越好。但这些比率和分类阈值有关,相关比率曲线如图(b),阈值取得越低,更多的...原创 2018-07-26 22:53:43 · 8220 阅读 · 0 评论 -
Hive参数调优
hive通过将查询划分成一个或多个MapReduce任务达到并行处理的目的。每个任务都可能具有多个mapper和reducer任务,其中至少有一些是可以并行执行的。确定最佳的mapper个数和reducer个数取决于多个变量,例如输入的数据量大小以及对这些数据执行的操作类型等。保持平衡性是很有必要的,对于Spark/Hadoop这样的大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜,每个...转载 2018-08-05 21:14:55 · 352 阅读 · 0 评论 -
simhash实现文本去重原理与工程化实现
网上有很多写的很好的了,我就不重复造轮子了,摘录几篇讲的透彻的,忘记了再捡起来看看。simhash的java实现(包含汉明距离计算):http://jacoxu.com/simhash%E6%98%AF%E5%90%A6%E9%80%82%E5%90%88%E7%9F%AD%E6%96%87%E6%9C%AC%E7%9A%84%E7%9B%B8%E4%BC%BC%E6%96%87%E6%9...原创 2018-08-17 17:21:17 · 900 阅读 · 0 评论