livan1234的博客

大数据的应用不仅仅是技术的问题,但首先是技术的问题

排序:
默认
按更新时间
按访问量

天池离线赛 - 移动推荐算法(四):基于LR, RF, GBDT等模型的预测

本文为转载文章,来源为: https://blog.csdn.net/Snoopy_Yuan/article/details/75808006 一直在探索数据挖掘、数据建模的案例,百度搜到这篇文章,收获颇丰,转载以作记录。 源码位置为: https://github.com/qiangsiw...

2018-10-12 11:53:27

阅读数:28

评论数:0

天池离线赛 - 移动推荐算法(三):特征构建

本文为转载文章,来源为: https://blog.csdn.net/Snoopy_Yuan/article/details/75105724 一直在探索数据挖掘、数据建模的案例,百度搜到这篇文章,收获颇丰,转载以作记录。 移动推荐算法是阿里天池赛2015年赛题之一,题目以移动电商平台的真实用...

2018-10-12 11:46:07

阅读数:15

评论数:0

天池离线赛 - 移动推荐算法(二):基于简单规则的预测

本文为转载文章,来源为: https://blog.csdn.net/Snoopy_Yuan/article/details/72850601 一直在探索数据挖掘、数据建模的案例,百度搜到这篇文章,收获颇丰,转载以作记录。 前言:移动推荐算法是阿里天池赛2015年赛题之一,题目以移动电商平台的...

2018-10-12 11:44:47

阅读数:20

评论数:0

天池离线赛 - 移动推荐算法(一):题目与数据解析

本文为转载文章,来源为: https://blog.csdn.net/Snoopy_Yuan/article/details/72454636 一直在探索数据挖掘、数据建模的案例,百度搜到这篇文章,收获颇丰,转载以作记录。 移动推荐算法是阿里天池赛2015年赛题之一,题目以移动电商平台的真实用...

2018-10-12 11:42:38

阅读数:41

评论数:0

产品设计学习(三)——用户画像与特征工程

用户画像涉及的内容较多,此处先做一个基本的概括,后面会持续补充~ 用户画像总体有几个方面可以考虑: 1)基本特征属性: 主要是指相对稳定的属性值。 比如:性别、年龄、工作、薪资等。 2)基本行为属性: 主要是指用户的行为信息,行为记录等。 比如:时间维度、空间维度、流程维度、周期...

2018-10-12 09:57:55

阅读数:50

评论数:0

产品设计学习(二)——用户线上消费行为分析

用户行为研究主要是通过用户在网站的点击行为分析用户的兴趣点、购买意愿等。在用户购买商品的过程中,可以将分析的主题分为几个部分: 1)用户:即用户的基本属性和行为属性,用户会根据自己的需求和网站的设计产生各种需求,已达到自己的购物目的。 2)网站:网站的结构从登陆开始可以看作是一个树状结构,...

2018-09-20 10:07:17

阅读数:67

评论数:0

Spark学习(二)——spark原理及优化

1、RDD原理 RDD读入外部数据源进行创建RDD经过一系列的转换(Transformation)操作,每一次都会产生不同的RDD,供给下一个转换操作使用 最后一个RDD经过“动作”操作进行转换,并输出到外部数据源  这一系列处理称为一个Lineage(血缘关系),即DAG拓扑排序的结果 ...

2018-09-18 11:31:17

阅读数:69

评论数:0

机器学习(二十六)——协同过滤算法

协同过滤一般是在海量的用户中发掘出一小部分和你品味比较类似的,在协同过滤中,这些用户成为邻居,然后根据他们喜欢的其他东西组织成一个排序的目录作为推荐给你。 协同过滤主要处理三个问题: 如何确定一个用户是不是相似品味的? 如何将邻居们的喜好组织成一个排序的目录? 实现协同过滤的步骤可以分为三步...

2018-09-17 21:57:19

阅读数:32

评论数:0

实战演习(八)——全量客户的保留(流失客户预警)

此案例主要是了解建模的一个整体的流程,以及特征工程的构建,在建模过程中,特征的选择是直接影响到模型好坏的因素,此案例为凸显流程的重要性,暂时忽略细节部分,后面会用python构建完整的客户保留分析模型。 广义流失定义: 客户消失; 转运营商; 价值流失; 网内换号; 即解决:预测客户流失...

2018-09-10 23:11:03

阅读数:49

评论数:0

产品设计学习(一)——梁宁产品思维大纲

梁宁的产品三十讲细细读来真心有醍醐灌顶的感觉,用一个个细致的案例逐渐的讲清楚了一个个产品相关的名词,而且又对这些进行延伸,让人感觉放在平时生活中依然有回响。 笔者由于思维的原因,将读后的知识体系做一次汇总并加入自己的一些想法,希望能在后期使用时看到这个提纲,就能迅速的抓住一些基本的思路,对产...

2018-08-29 13:42:48

阅读数:259

评论数:2

storm学习(六)——kafka原理及安装

首先回顾一下storm的内容: Storm的数据源一方面来自kafka,kafka的数据送给storm中的spout,供storm使用,下面详细介绍kafka。 Kafka介绍:https://blog.csdn.net/ychenfeng/article/details/74980531...

2018-08-27 23:36:51

阅读数:90

评论数:2

storm学习(五)——storm的可靠性与acter机制

本文引用:https://www.cnblogs.com/hd3013779515/p/6965311.html storm保证从spout发出的每个tuple都会被完全处理。这篇文章介绍storm是怎么做到这个保证的,以及我们使用者怎么做才能充分利用storm的可靠性特点。 Storm拓扑图...

2018-08-23 22:35:02

阅读数:39

评论数:2

storm学习(四)——storm的并发和worker通讯机制

1、Storm程序的并发机制 1.1、概念 storm的并发即为在topology运行的时候存在多线程同时运行的效果,各个线程之间并发的效果可以根据需求在storm文件中配置。 如下图,supervisor和node是一一对应的关系,worker就是process进程,executor就是t...

2018-08-22 17:53:24

阅读数:66

评论数:0

storm学习(三)——storm任务提交流程

storm的任务提交流程为storm知识点中的重点,因此,笔者将这些资料单独拿出来,做一次记录。 storm的总体流程图为: TopologyMetricsRunnable.TaskStartEvent[oldAssignment=<null&...

2018-08-19 23:11:22

阅读数:148

评论数:0

机器学习(二十五)——推荐算法

推荐算法的内容比较庞大,本文首先介绍一些常用的知识点,随着学习的深入,笔者会添加新的内容。 笔者理解基于协同过滤的推荐是在基于内容推荐的基础上进行的推广,模型的构建主要需要考虑几个问题: 1)如何计算用户对商品的偏好,形成U-V矩阵; 2)如何计算物品以及用户的相似度,主要有两种方法: 其...

2018-08-17 10:28:00

阅读数:162

评论数:2

strom学习(二)——storm源码解析与wordcount案例解析

1、Storm源码下载及目录熟悉 1.1、在Storm官方网站上寻找源码地址     http://storm.apache.org/downloads.html 1.2、点击文字标签进入github 点击Apache/storm文字标签,进入github         http...

2018-08-16 22:39:24

阅读数:60

评论数:2

storm学习(一)——storm原理及安装

一、storm的基本原理: 1、离线计算是什么? 离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示 代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、***任务调度 1,hivesql:工作中的重中之重; 2、...

2018-08-14 21:41:17

阅读数:35

评论数:0

吴恩达深度学习细节补充(二)——欠拟合过拟合与误差分析

在调整一个模型的过拟合的问题时可以有较多的方法,吴恩达在视频中给出了L2正则化、dropout正则化、数据扩增、early stoping(损失值与迭代次数的函数)等方法,具体的解释可以了解一下吴恩达深度学习的笔记136页: https://download.csdn.net/download/...

2018-08-13 12:13:34

阅读数:118

评论数:2

吴恩达深度学习细节补充(一)——正向传播与反向传播

吴恩达的讲义在深度学习过程中是非常经典的资料,但是在讲解过程中部分环节没有详细给出推导公式,导致笔者在学习神经网络过程中总是不明就里,因此才有了写一篇细节补充的想法,本系列主要针对吴恩达深度学习讲义的细节部分进行补充,讲义中讲的比较清楚的部分不做赘述,具体可见笔者上传的资料: https://d...

2018-08-10 11:20:34

阅读数:331

评论数:2

python常用包学习(五)——sklearn

本文主要是对sklearn的一些常用方法做一些简单的介绍,这个包中的内容主要包括一些机器学习的算法,需要结合机器学习的原理进行理解。 sklearn是一些封装较高的算法集: 分类、回归、无监督、决策树、数据降维、数据预处理等,包括常见的一些机器学习的方法。 #!/usr/bin/env pyt...

2018-08-08 22:00:03

阅读数:74

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭