学步猴子-CSDN博客

原创 spark数据持久化方案及代码实现

数据持久化，即将spark streaming 生成的数据进行保存以便未来进行数据的复现和查询，目前数据持久化的方案主要有：Hbase、HDFS、MySql、Dataworks四种，这四种方案各有千秋，下面详细说明这四种方案：5.1 数据持久化方案简介 HBase：全称： Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术...

2019-09-16 11:12:34 694

原创策略梯度算法公式推导详解

策略梯度算法的核心目标是最大化。JθEτ∼πθRτ其中，轨迹τs0a0r0s1sT表示从初始状态到终止状态的序列，Rτ∑t0Tγtrt是折扣累积回报，γ∈01为折扣因子。

2025-04-30 01:13:39 693

原创国内主要算法竞赛平台

树愿：http://www.datadreams.orgDC竞赛：http://www.dcjingsai.com/阿里天池：https://tianchi.aliyun.com/京东JDATA：https://jdata.jd.com/DataFountain：https://www.datafountain.cn/Kesci：https://www.kesci.com/home/co...

2019-12-30 21:25:41 974

阿里云PAI是一个一站式的算法平台，上面集成了部分常用的机器学习算法，如GBDT二分类、逻辑回归等算法进行了封装，在使用时只需要拖拽相关组件即可，在PAI中不仅仅集成一些机器学习算法，而且集成了机器学习中的数据预处理、特征工程、模型评估等相关方法的组件，这些组件根据解决的问题类型进行了分类，如果对PySpark的熟悉的同学，应该一眼可以看出阿里云PAI的封装组件其实就是目前PySpark.ML支持...

2019-12-17 15:33:44 2237

原创 tensorflow版本更新的问题归纳

tensorflow在前段时间更新了2.0.0版本，本人兴高采烈的更新了最新的版本，不料这一下子像是炸开了的河堤，不忍直视，然后本人就开始了新的探索（踩坑）之旅，简直爽到不要，言归正传：1.module ‘tensorflow’ has no attribute ‘placeholder’这一类问题就是由于tensorflow版本更新引发的，在此前版本的代码中，习惯tf.placeholder...

2019-11-29 19:32:42 847

原创分类算法评估指标

算法模型的效果是通过什么指标来进行衡量的呢？在数字面前没有主观臆想，而算法是数学的高度浓缩的结晶，所以算法的衡量也是通过数学的方法来进行计算，算法的目前就是结合现有的数据来预测出未来，算法解决的问题综合起来就是预测，有些问题是分类，有些问题是回归，等等，深入的去想还是预测，...

2019-11-26 10:14:34 934

原创用户画像标签体系及实现方法

用户画像，简单的从字面意思上理解通过画画的形式来描述用户的外在形象，用户的外在形象表现在画面上是一种直观的信息，能够通过图画来一眼看出用户是大眼睛小眼睛，高鼻梁矮鼻梁，乃至判断用户的年龄、性别、职业、情感等等一系列状态，在推荐系统中，用户画像也是同样的道理，根据用户人口特征、网页浏览、社交活动、消费行为等信息为勾勒出用户的画像，这种画像是通过标签化的方式呈现，构建用户画像的核心工作就是利用海量数据...

2019-09-17 17:58:02 2592

原创推荐系统算法框架设计

推荐系统的核心即是探索item-item、user-item、user-user的关系，然后通过一种方法把这种关系量化或可视化，或许这般说法太过于简化了，仔细的思考过后会发现并不那么容易，让机器发现尿不湿与啤酒的关系，或许并不是很难，而现在是个性化推荐，不只是尿不湿和啤酒的关系，而是什么样子的尿不湿和什么样子的啤酒给什么样子的人推荐，或者说中间还需要奶粉等等很多很多，item千千万，user动辄上...

2019-09-17 16:09:21 1294

原创常见推荐算法学习

常见的推荐算法包括以下：基于流行度的推荐算法（按热门推荐）协同过滤算法基于用户的协同过滤算法（推荐和你类似的人喜欢的商品）基于商品的协同过滤算法（推荐喜欢这个商品的人也喜欢的商品）基于内容的过滤算法（词权、word2vec、聚类）基于模型的推荐算法（多种机器学习算法）基于矩阵分解的推荐算法（LFM隐语义模型）混合算法（结合多种推荐算法）各类...

2019-09-16 11:29:21 704

原创 spark及spark sreaming相关测试demo

针对spark进行了一些相关测试：spark进行wordcount测试，spark streaming进行可行测试，Kafka消息生产进行测试6.1 spark进行word count测试采用比较常用的spark测试案例对spark能否进行运算进行了测试：import org.apache.spark.{SparkConf, SparkContext}object ScalaPi { d...

2019-09-16 11:18:09 629

原创实时计算之离线任务发布相关指南--hue

目前公司的spark平台不能直接采用shell进行登陆和任务发布，通过hue进行任务的发布，并可以完成相关的任务执行。当然在目前的条件下，能够算是完成了预期的目标，后期随着大家对spark平台的认识的加深和理解的深入，进而进行spark优化。在进行任务发布相关流程讲解之前，首先对相关的环境进行配置，有关环境配置一定要与spark平台的保持一致：1、公司的安装spark版本为2.3.0，目前sp...

2019-09-16 10:45:16 751

原创实时计算之日志系统

1、日志系统（FLUME、kafka）1.1 FLUME概念： Flume 是一个从可以收集例如日志，事件等数据资源，并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务，或者数集中机制。特点：flume具有高可用，分布式，配置工具，其设计的原理也是基于将数据流，如日志数据从各种网站服务器上汇集起来存储到HDFS，HBase等集中存储器中 ...

2019-09-16 10:35:00 509

matlab卷积码程序

用matlab生成卷积码，在编码仿真中使用，

2017-07-24

MCGS触摸屏教程服务宝典

本书通过对大量客户问题的总结和归纳，提炼出了100个常见的技术问题，并对每个问题的处理方案进行简明扼要的说明，有助于各级代理商技术人员、终端客户技术人员能够方便、快捷的处理在实际的使用过程中遇见的各种问题。

2015-04-22

伪随机序列及编码

伪随机序列的生成与应用

2017-07-24

爬取app包名.py

对国内主流应用市场进行爬虫，包含了爬虫的整个程序，并且可爬虫相关app的简介

2019-06-06

movie_recom.py

推荐算法入门算法及实例，必会的电影推荐算法，一通百通，电影推荐算法完整代码

2019-06-06

matlab编程RS_code

全面的RS编码,细致的注释，支持2010以上版本matlab

2017-07-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

s840993622的博客

原创 spark数据持久化方案及代码实现

原创策略梯度算法公式推导详解

原创国内主要算法竞赛平台

原创阿里云PAI自定义算法的使用教程

原创 tensorflow版本更新的问题归纳

原创分类算法评估指标

原创用户画像标签体系及实现方法

原创推荐系统算法框架设计

原创常见推荐算法学习

原创 spark及spark sreaming相关测试demo

原创实时计算之离线任务发布相关指南--hue

原创实时计算之日志系统

matlab卷积码程序

MCGS触摸屏教程服务宝典

伪随机序列及编码

爬取app包名.py

movie_recom.py

matlab编程RS_code

空空如也