自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (6)
  • 收藏
  • 关注

原创 spark数据持久化方案及代码实现

数据持久化,即将spark streaming 生成的数据进行保存以便未来进行数据的复现和查询,目前数据持久化的方案主要有:Hbase、HDFS、MySql、Dataworks四种,这四种方案各有千秋,下面详细说明这四种方案:5.1 数据持久化方案简介 HBase:全称: Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术...

2019-09-16 11:12:34 598

原创 国内主要算法竞赛平台

树愿:http://www.datadreams.orgDC竞赛:http://www.dcjingsai.com/阿里天池:https://tianchi.aliyun.com/京东JDATA:https://jdata.jd.com/DataFountain:https://www.datafountain.cn/Kesci:https://www.kesci.com/home/co...

2019-12-30 21:25:41 883

原创 阿里云PAI自定义算法的使用教程

阿里云PAI是一个一站式的算法平台,上面集成了部分常用的机器学习算法,如GBDT二分类、逻辑回归等算法进行了封装,在使用时只需要拖拽相关组件即可,在PAI中不仅仅集成一些机器学习算法,而且集成了机器学习中的数据预处理、特征工程、模型评估等相关方法的组件,这些组件根据解决的问题类型进行了分类,如果对PySpark的熟悉的同学,应该一眼可以看出阿里云PAI的封装组件其实就是目前PySpark.ML支持...

2019-12-17 15:33:44 1947

原创 tensorflow版本更新的问题归纳

tensorflow在前段时间更新了2.0.0版本,本人兴高采烈的更新了最新的版本,不料这一下子像是炸开了的河堤,不忍直视,然后本人就开始了新的探索(踩坑)之旅,简直爽到不要,言归正传:1.module ‘tensorflow’ has no attribute ‘placeholder’这一类问题就是由于tensorflow版本更新引发的,在此前版本的代码中,习惯tf.placeholder...

2019-11-29 19:32:42 756

原创 分类算法评估指标

算法模型的效果是通过什么指标来进行衡量的呢?在数字面前没有主观臆想,而算法是数学的高度浓缩的结晶,所以算法的衡量也是通过数学的方法来进行计算,算法的目前就是结合现有的数据来预测出未来,算法解决的问题综合起来就是预测,有些问题是分类,有些问题是回归,等等,深入的去想还是预测,...

2019-11-26 10:14:34 831

原创 用户画像标签体系及实现方法

用户画像,简单的从字面意思上理解通过画画的形式来描述用户的外在形象,用户的外在形象表现在画面上是一种直观的信息,能够通过图画来一眼看出用户是大眼睛小眼睛,高鼻梁矮鼻梁,乃至判断用户的年龄、性别、职业、情感等等一系列状态,在推荐系统中,用户画像也是同样的道理,根据用户人口特征、网页浏览、社交活动、消费行为等信息为勾勒出用户的画像,这种画像是通过标签化的方式呈现,构建用户画像的核心工作就是利用海量数据...

2019-09-17 17:58:02 2321

原创 推荐系统算法框架设计

推荐系统的核心即是探索item-item、user-item、user-user的关系,然后通过一种方法把这种关系量化或可视化,或许这般说法太过于简化了,仔细的思考过后会发现并不那么容易,让机器发现尿不湿与啤酒的关系,或许并不是很难,而现在是个性化推荐,不只是尿不湿和啤酒的关系,而是什么样子的尿不湿和什么样子的啤酒给什么样子的人推荐,或者说中间还需要奶粉等等很多很多,item千千万,user动辄上...

2019-09-17 16:09:21 1088

原创 常见推荐算法学习

常见的推荐算法包括以下:基于流行度的推荐算法(按热门推荐)协同过滤算法 基于用户的协同过滤算法(推荐和你类似的人喜欢的商品) 基于商品的协同过滤算法(推荐喜欢这个商品的人也喜欢的商品)基于内容的过滤算法(词权、word2vec、聚类)基于模型的推荐算法(多种机器学习算法)基于矩阵分解的推荐算法(LFM隐语义模型)混合算法(结合多种推荐算法)各类...

2019-09-16 11:29:21 557

原创 spark及spark sreaming相关测试demo

针对spark进行了一些相关测试:spark进行wordcount测试,spark streaming进行可行测试,Kafka消息生产进行测试6.1 spark进行word count测试采用比较常用的spark测试案例对spark能否进行运算进行了测试:import org.apache.spark.{SparkConf, SparkContext}object ScalaPi { d...

2019-09-16 11:18:09 560

原创 实时计算之离线任务发布相关指南--hue

目前公司的spark平台不能直接采用shell进行登陆和任务发布,通过hue进行任务的发布,并可以完成相关的任务执行。当然在目前的条件下,能够算是完成了预期的目标,后期随着大家对spark平台的认识的加深和理解的深入,进而进行spark优化。在进行任务发布相关流程讲解之前,首先对相关的环境进行配置,有关环境配置一定要与spark平台的保持一致:1、公司的安装spark版本为2.3.0,目前sp...

2019-09-16 10:45:16 660

原创 实时计算之日志系统

1、日志系统(FLUME、kafka)1.1 FLUME概念: Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务,或者数集中机制。 特点 :flume具有高可用,分布式,配置工具,其设计的原理也是基于将数据流,如日志数据从各种网站服务器上汇集起来存储到HDFS,HBase等集中存储器中 ...

2019-09-16 10:35:00 428

movie_recom.py

推荐算法入门算法及实例,必会的电影推荐算法,一通百通,电影推荐算法完整代码

2019-06-06

爬取app包名.py

对国内主流应用市场进行爬虫,包含了爬虫的整个程序,并且可爬虫相关app的简介

2019-06-06

matlab编程RS_code

全面的RS编码,细致的注释,支持2010以上版本matlab

2017-07-24

matlab卷积码程序

用matlab生成卷积码,在编码仿真中使用,

2017-07-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除