大数据
To_be_brave1
这个作者很懒,什么都没留下…
展开
-
Flume+Kafka+Storm+Redis实时分析系统基本架构
今天作者要在这里通过一个简单的电商网站订单实时分析系统和大家一起梳理一下大数据环境下的实时分析系统的架构模型。当然这个架构模型只是实时分析技术的一 个简单的入门级架构,实际生产环境中的大数据实时分析技术还涉及到很多细节的处理, 比如使用Storm的ACK机制保证数据都能被正确处理, 集群的高可用架构, 消费数据时如何处理重复数据或者丢失数据等问题,根据不同的业务场景,对数据的可靠性要求以及系统的复...转载 2018-07-02 16:56:49 · 212 阅读 · 0 评论 -
计算广告
hhttps://wenku.baidu.com/view/b5fcbdf890c69ec3d4bb753b.html rec_flag=default&sxts=1530848983358&sxts=1530849291236Table of Contents1. 在线广告综述1.1. 广告的定义与目的1.2. 在线广告类型1.3. 在线广告简史1.4. 广告有效性原理1.5. ...转载 2018-07-06 12:06:39 · 695 阅读 · 0 评论 -
深入浅出Spark
原创 2018-07-04 17:07:38 · 266 阅读 · 0 评论 -
腾讯社交广告高校算法大赛——总结
转https://blog.csdn.net/ben3ben/article/details/74838338腾讯社交广告高校算法大赛——总结题目描述http://algo.tpai.qq.com/home/home/index.html成绩决赛第7名赛题分析 比赛中,我们比较关心的一个问题在于:数据线上线下分布不一致:1、某些app和用户的记录比较少;2、数据的时效性要求较高。这对于特征工程会...转载 2018-07-03 20:14:28 · 2010 阅读 · 0 评论 -
spark mllib 入门学习(一)--聚类算法
http://www.aboutyun.com/thread-22235-1-1.html1.概述首先,笔者要先申明,我也是初学机器学习领域的内容,虽然我是从事大数据平台开发的工作,但是工作中确实没有跟spark MLlib打过交道,所以文中如果有描述错误的地方,还请大家指正。机器学习对高数、python的基础都有一定的要求,但是入门我觉得最重要的是理论联系实际,了解机器学习基本概念,然后结合sp...转载 2018-07-03 18:09:29 · 653 阅读 · 0 评论 -
spark mllib 入门学习(二)--LDA文档主题模型
http://www.aboutyun.com/thread-22359-1-1.html问题导读:1.什么是LDA文档问题模型?2.LDA 建模算法是什么样的?3.spark MLlib中的LDA模型如何调优?4.运行LDA有哪些小技巧?上次我们简单介绍了聚类算法中的KMeans算法,并且介绍了一个简单的KMeans的例子,本次按照我的计划,我想分享的是聚类算法中的LDA文档主题模型,计划从下次...转载 2018-07-03 18:02:44 · 1035 阅读 · 0 评论 -
Spark LDA
https://blog.csdn.net/poised/article/details/50382107本文主要对使用Spark MLlib LDA进行主题抽取时遇到的工程问题做一总结,列出其中的一些小坑,或可供读者借鉴。关于LDA的具体理论等可以自行google。主题预测请参考:Spark LDA 主题预测开发环境:spark-1.5.2,hadoop-2.6.0,spark-1.5.2要求j...转载 2018-07-10 10:43:01 · 328 阅读 · 0 评论 -
Flume+Spark+Hive+Spark SQL离线分析系统
转https://blog.csdn.net/ymh198816/article/details/52014315 前段时间把Scala和Spark一起学习了,所以借此机会在这里做个总结,顺便和大家一起分享一下目前最火的分布式计算技术Spark!当然Spark不光是可以做离线计算,还提供了许多功能强大的组件,比如说,Spark Streaming 组件做实时计算,和Kafka等消息系统...转载 2018-07-02 17:01:09 · 341 阅读 · 0 评论 -
Flume+Hadoop+Hive的离线分析系统基本架构
转https://blog.csdn.net/ymh198816/article/details/51540715最近在学习大数据的离线分析技术,所以在这里通过做一个简单的网站点击流数据分析离线系统来和大家一起梳理一下离线分析系统的架构模型。当然这个架构模型只能是离线分析技术的一个简单的入门级架构,实际生产环境中的大数据离线分析技术还涉及到很多细节的处理和高可用的架构。这篇文章的目的只是带大家入个...转载 2018-07-02 16:59:00 · 734 阅读 · 0 评论 -
转载——数据挖掘&机器学习
一、数据挖掘&机器学习 什么是社区发现?Factorization Machines 学习笔记(四)学习算法Factorization Machines 学习笔记(三)回归和分类Factorization Machines 学习笔记(二)模型方程Factorization Machines 学习笔记(一)预测任务发表在 Science 上的一种新聚类算法一种并行随...转载 2018-08-23 13:50:22 · 169 阅读 · 0 评论