- 博客(11)
- 资源 (6)
- 收藏
- 关注
原创 spark数据持久化方案及代码实现
数据持久化,即将spark streaming 生成的数据进行保存以便未来进行数据的复现和查询,目前数据持久化的方案主要有:Hbase、HDFS、MySql、Dataworks四种,这四种方案各有千秋,下面详细说明这四种方案:5.1 数据持久化方案简介 HBase:全称: Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术...
2019-09-16 11:12:34 598
原创 国内主要算法竞赛平台
树愿:http://www.datadreams.orgDC竞赛:http://www.dcjingsai.com/阿里天池:https://tianchi.aliyun.com/京东JDATA:https://jdata.jd.com/DataFountain:https://www.datafountain.cn/Kesci:https://www.kesci.com/home/co...
2019-12-30 21:25:41 883
原创 阿里云PAI自定义算法的使用教程
阿里云PAI是一个一站式的算法平台,上面集成了部分常用的机器学习算法,如GBDT二分类、逻辑回归等算法进行了封装,在使用时只需要拖拽相关组件即可,在PAI中不仅仅集成一些机器学习算法,而且集成了机器学习中的数据预处理、特征工程、模型评估等相关方法的组件,这些组件根据解决的问题类型进行了分类,如果对PySpark的熟悉的同学,应该一眼可以看出阿里云PAI的封装组件其实就是目前PySpark.ML支持...
2019-12-17 15:33:44 1947
原创 tensorflow版本更新的问题归纳
tensorflow在前段时间更新了2.0.0版本,本人兴高采烈的更新了最新的版本,不料这一下子像是炸开了的河堤,不忍直视,然后本人就开始了新的探索(踩坑)之旅,简直爽到不要,言归正传:1.module ‘tensorflow’ has no attribute ‘placeholder’这一类问题就是由于tensorflow版本更新引发的,在此前版本的代码中,习惯tf.placeholder...
2019-11-29 19:32:42 756
原创 分类算法评估指标
算法模型的效果是通过什么指标来进行衡量的呢?在数字面前没有主观臆想,而算法是数学的高度浓缩的结晶,所以算法的衡量也是通过数学的方法来进行计算,算法的目前就是结合现有的数据来预测出未来,算法解决的问题综合起来就是预测,有些问题是分类,有些问题是回归,等等,深入的去想还是预测,...
2019-11-26 10:14:34 831
原创 用户画像标签体系及实现方法
用户画像,简单的从字面意思上理解通过画画的形式来描述用户的外在形象,用户的外在形象表现在画面上是一种直观的信息,能够通过图画来一眼看出用户是大眼睛小眼睛,高鼻梁矮鼻梁,乃至判断用户的年龄、性别、职业、情感等等一系列状态,在推荐系统中,用户画像也是同样的道理,根据用户人口特征、网页浏览、社交活动、消费行为等信息为勾勒出用户的画像,这种画像是通过标签化的方式呈现,构建用户画像的核心工作就是利用海量数据...
2019-09-17 17:58:02 2321
原创 推荐系统算法框架设计
推荐系统的核心即是探索item-item、user-item、user-user的关系,然后通过一种方法把这种关系量化或可视化,或许这般说法太过于简化了,仔细的思考过后会发现并不那么容易,让机器发现尿不湿与啤酒的关系,或许并不是很难,而现在是个性化推荐,不只是尿不湿和啤酒的关系,而是什么样子的尿不湿和什么样子的啤酒给什么样子的人推荐,或者说中间还需要奶粉等等很多很多,item千千万,user动辄上...
2019-09-17 16:09:21 1088
原创 常见推荐算法学习
常见的推荐算法包括以下:基于流行度的推荐算法(按热门推荐)协同过滤算法 基于用户的协同过滤算法(推荐和你类似的人喜欢的商品) 基于商品的协同过滤算法(推荐喜欢这个商品的人也喜欢的商品)基于内容的过滤算法(词权、word2vec、聚类)基于模型的推荐算法(多种机器学习算法)基于矩阵分解的推荐算法(LFM隐语义模型)混合算法(结合多种推荐算法)各类...
2019-09-16 11:29:21 557
原创 spark及spark sreaming相关测试demo
针对spark进行了一些相关测试:spark进行wordcount测试,spark streaming进行可行测试,Kafka消息生产进行测试6.1 spark进行word count测试采用比较常用的spark测试案例对spark能否进行运算进行了测试:import org.apache.spark.{SparkConf, SparkContext}object ScalaPi { d...
2019-09-16 11:18:09 560
原创 实时计算之离线任务发布相关指南--hue
目前公司的spark平台不能直接采用shell进行登陆和任务发布,通过hue进行任务的发布,并可以完成相关的任务执行。当然在目前的条件下,能够算是完成了预期的目标,后期随着大家对spark平台的认识的加深和理解的深入,进而进行spark优化。在进行任务发布相关流程讲解之前,首先对相关的环境进行配置,有关环境配置一定要与spark平台的保持一致:1、公司的安装spark版本为2.3.0,目前sp...
2019-09-16 10:45:16 660
原创 实时计算之日志系统
1、日志系统(FLUME、kafka)1.1 FLUME概念: Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务,或者数集中机制。 特点 :flume具有高可用,分布式,配置工具,其设计的原理也是基于将数据流,如日志数据从各种网站服务器上汇集起来存储到HDFS,HBase等集中存储器中 ...
2019-09-16 10:35:00 428
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人