![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
「已注销」
,,
展开
-
RPC系列之--推荐系统实现方案(python)
RPC系列之–推荐系统实现方案(python)1推荐系统接口定义1.1接口原型接口名称: user_recommend调用参数:UserRequest: user_id # 用户id channel_id # 频道id article_num # 推荐的文章数量 time_stamp # 推荐的时间戳返回数据:Artic...原创 2019-07-17 20:58:28 · 518 阅读 · 0 评论 -
推荐系统
1-推荐系统简介1.1推荐系统概念及产生背景个性化推荐(推荐系统)经历了多年的发展,已经成为互联网产品的标配,也是AI成功落地的分支之一,在电商(淘宝/京东)、资讯(今日头条/微博)、音乐(网易云音乐/QQ音乐)、短视频(抖音/快手)等热门应用中,推荐系统都是核心组件之一。什么是推荐系统没有明确需求的用户访问了我们的服务, 且服务的物品对用户构成了信息过载, 系统通过一定的规则对物...原创 2019-08-31 19:32:46 · 1964 阅读 · 0 评论 -
推荐系统算法-Model-Based 协同过滤算法
Model-Based 协同过滤算法随着机器学习技术的逐渐发展与完善,推荐系统也逐渐运用机器学习的思想来进行推荐。将机器学习应用到推荐系统中的方案真是不胜枚举。以下对Model-Based CF算法做一个大致的分类:基于分类算法、回归算法、聚类算法基于矩阵分解的推荐基于神经网络算法基于图模型算法接下来我们重点学习以下几种应用较多的方案:基于回归模型的协同过滤推荐...原创 2019-08-31 19:38:23 · 1087 阅读 · 0 评论 -
推荐系统算法-基于回归模型的协同过滤推荐
基于回归模型的协同过滤推荐如果我们将评分看作是一个连续的值而不是离散的值,那么就可以借助线性回归思想来预测目标用户对某物品的评分。其中一种实现策略被称为Baseline(基准预测)。Baseline:基准预测Baseline设计思想基于以下的假设:有些用户的评分普遍高于其他用户,有些用户的评分普遍低于其他用户。比如有些用户天生愿意给别人好评,心慈手软,比较好说话,而有的人就比较苛刻,总...原创 2019-08-31 19:55:48 · 1561 阅读 · 1 评论 -
推荐系统算法-基于矩阵分解的CF算法
基于矩阵分解的CF算法矩阵分解发展史raditional SVD:通常SVD矩阵分解指的是SVD(奇异值)分解技术,在这我们姑且将其命名为Traditional SVD(传统并经典着)其公式如下:Traditional SVD分解的形式为3个矩阵相乘,中间矩阵为奇异值矩阵。如果想运用SVD分解的话,有一个前提是要求矩阵是稠密的,即矩阵里的元素要非空,否则就不能运用SVD分解。很显然我...原创 2019-08-31 20:05:03 · 500 阅读 · 0 评论 -
推荐系统算法-基于矩阵分解的CF算法实现(一):LFM
基于矩阵分解的CF算法实现(一):LFMLFM也就是前面提到的Funk SVD矩阵分解LFM原理解析LFM(latent factor model)隐语义模型核心思想是通过隐含特征联系用户和物品,如下图:算法实现数据加载import pandas as pdimport numpy as npdtype = [("userId", np.int32), ("mov...原创 2019-08-31 20:26:29 · 1303 阅读 · 0 评论 -
推荐算法-基于矩阵分解的CF算法实现(二):BiasSvd
基于矩阵分解的CF算法实现(二):BiasSvdBiasSvd其实就是前面提到的Funk SVD矩阵分解基础上加上了偏置项。BiasSvd利用BiasSvd预测用户对物品的评分,k表示隐含特征数量:算法实现'''BiasSvd Model'''import mathimport randomimport pandas as pdimport numpy as np...原创 2019-08-31 20:30:10 · 3493 阅读 · 0 评论 -
推荐系统-基于内容的推荐算法(Content-Based)
基于内容的推荐算法(Content-Based)简介基于内容的推荐方法是非常直接的,它以物品的内容描述信息为依据来做出的推荐,本质上是基于对物品和用户自身的特征或属性的直接分析和计算。例如,假设已知电影A是一部喜剧,而恰巧我们得知某个用户喜欢看喜剧电影,那么我们基于这样的已知信息,就可以将电影A推荐给该用户。基于内容的推荐实现步骤画像构建。顾名思义,画像就是刻画物品或用户的特征。...原创 2019-08-31 20:36:55 · 3112 阅读 · 0 评论 -
大数据技术之Hadoop
大数据技术之Hadoop简介大数据的特点大数据应用场景大数据部门组织结构(重点)大数据部门组织结构,适用于大中型企业,如图所示。Hadoop框架1.1什么是hadoop1.2hadoop发展史1.3hadoop三大发行版Hadoop三大发行版本:Apache、Cloudera、Hortonworks。Apache版本最原始(最基础)的版...原创 2019-09-02 22:11:30 · 236 阅读 · 0 评论 -
hadoop系统-分布式文件系统 HDFS
分布式文件系统 HDFS1HDFS设计思路2HDFS架构1个NameNode/NN(Master) 带 DataNode/DN(Slaves) (Master-Slave结构)1个文件会被拆分成多个BlockNameNode(NN)负责客户端请求的响应负责元数据(文件的名称、副本系数、Block存放的DN)的管理元数据 MetaData 描述数据的数据监控DataN...原创 2019-09-02 22:39:57 · 355 阅读 · 0 评论 -
hadoop系统-资源管理系统YARN
资源管理系统YARN1YARN的概念和产生背景1.1什么是YARNYet Another Resource Negotiator, 另一种资源协调者通用资源管理系统为上层应用提供统一的资源管理和调度,为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处1.2通用资源管理系统Hadoop数据分布式存储(数据分块,冗余存储)当多个MapReduce任务要用到相同的h...原创 2019-09-02 22:52:51 · 398 阅读 · 0 评论 -
pandas系列总结案例
pandas系列总结案例1 需求现在我们有一组从2006年到2016年1000部最流行的电影数据数据来源:https://www.kaggle.com/damianpanek/sunday-eda/data问题1:我们想知道这些电影数据中评分的平均分,导演的人数等信息,我们应该怎么获取?问题2:对于这一组电影数据,如果我们想知道rating,runtime的分布情况,应该如何呈现数据...原创 2019-08-15 20:46:27 · 633 阅读 · 0 评论 -
pandas-高级处理-分组与聚合
pandas-高级处理-分组与聚合目标应用groupby和聚合函数实现数据的分组与聚合分组与聚合通常是分析数据的一种方式,通常与一些统计函数一起使用,查看数据的分组情况想一想其实刚才的交叉表与透视表也有分组的功能,所以算是分组的一种形式,只不过他们主要是计算次数或者计算比例!!看其中的效果:1 什么分组与聚合2 分组APIDataFrame.groupby(key...原创 2019-08-15 20:24:59 · 419 阅读 · 1 评论 -
Pandas介绍
1Pandas介绍2008年WesMcKinney开发出的库专门用于数据挖掘的开源python库以Numpy为基础,借力Numpy模块在计算方面性能高的优势基于matplotlib,能够简便的画图独特的数据结构2为什么使用PandasNumpy已经能够帮助我们处理数据,能够结合matplotlib解决部分数据展示等问题,那么pandas学习的目的在什么地方呢?增强图表可读...原创 2019-08-14 21:12:53 · 182 阅读 · 0 评论 -
Pandas数据结构
Pandas数据结构Pandas中一共有三种数据结构,分别为:Series、DataFrame和MultiIndex(老版本中叫Panel )。其中Series是一维数据结构,DataFrame是二维的表格型数据结构,MultiIndex是三维的数据结构。1.SeriesSeries是一个类似于一维数组的数据结构,它能够保存任何类型的数据,比如整数、字符串、浮点数等,主要由一组数据和与...原创 2019-08-14 21:55:43 · 462 阅读 · 0 评论 -
pandas 基本数据操作
pandas 基本数据操作为了更好的理解这些基本操作,我们将读取一个真实的股票数据。关于文件操作,后面在介绍,这里只先用一下API# 读取文件data = pd.read_csv("./data/stock_day.csv")# 删除一些列,让数据更简单些,再去做后面的操作data = data.drop(["ma5","ma10","ma20","v_ma5","v_ma10","...原创 2019-08-15 17:02:30 · 235 阅读 · 0 评论 -
pandas-DataFrame运算
DataFrame运算1 算术运算add(other)比如进行数学运算加上具体的一个数字data['open'].add(1)2018-02-27 24.532018-02-26 23.802018-02-23 23.882018-02-22 23.252018-02-14 22.49sub(other)2 逻辑运算2.1 逻辑...原创 2019-08-15 17:24:35 · 3368 阅读 · 0 评论 -
pandas绘图
pandas绘图1 pandas.DataFrame.plotDataFrame.plot(kind=‘line’)kind : str,需要绘制图形的种类‘line’ : line plot (default)‘bar’ : vertical bar plot‘barh’ : horizontal bar plot关于“barh”的解释:barth‘hist’ : hist...原创 2019-08-15 18:03:53 · 184 阅读 · 0 评论 -
pandas-文件读取与存储
pandas-文件读取与存储我们的数据大部分存在于文件当中,所以pandas会支持复杂的IO操作,pandas的API支持众多的文件格式,如CSV、SQL、XLS、JSON、HDF5。我们的数据大部分存在于文件当中,所以pandas会支持复杂的IO操作,pandas的API支持众多的文件格式,如CSV、SQL、XLS、JSON、HDF5。1 CSV1.1 read_csvpan...原创 2019-08-15 18:56:39 · 757 阅读 · 0 评论 -
pandas 高级处理-缺失值处理
pandas 高级处理-缺失值处理1 如何处理nan1获取缺失值的标记方式(NaN或者其他标记方式)2如果缺失值的标记方式是NaN判断数据中是否包含NaN:pd.isnull(df),pd.notnull(df)存在缺失值nan,并且是np.nan:1、删除存在缺失值的:dropna(axis=‘rows’)注:不会修改原数据,需要接受返回值...原创 2019-08-15 19:16:36 · 374 阅读 · 0 评论 -
pandas-高级处理-数据离散化
pandas-高级处理-数据离散化1 为什么要离散化连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具。2 什么是数据的离散化连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数 值代表落在每个子区间中的属性值。离散化有很多种方法,这里使用一种最简单的方式去操作原始人的身高...原创 2019-08-15 19:30:53 · 1511 阅读 · 0 评论 -
pandas-高级处理-合并
pandas-高级处理-合并目标应用pd.concat实现数据的合并应用pd.merge实现数据的合并如果你的数据由多张表组成,那么有时候需要将不同的内容合并在一起分析1 pd.concat实现数据合并pd.concat([data1, data2], axis=1)按照行或列进行合并,axis=0为列索引,axis=1为行索引比如我们将刚才处理好的one-hot...原创 2019-08-15 19:52:04 · 217 阅读 · 0 评论 -
pandas-高级处理-交叉表与透视表
pandas-高级处理-交叉表与透视表目标应用crosstab和pivot_table实现交叉表与透视表1 交叉表与透视表什么作用探究股票的涨跌与星期几有关?以下图当中表示,week代表星期几,1,0代表这一天股票的涨跌幅是好还是坏,里面的数据代表比例可以理解为所有时间为星期一等等的数据当中涨跌幅好坏的比例交叉表:交叉表用于计算一列数据对于另外一列数据的分组个数(...原创 2019-08-15 20:10:30 · 208 阅读 · 0 评论 -
hadoop系统-分布式计算框架MapReduce
分布式计算框架MapReduce1-MapReduce概念 和 MapReduce编程模型2-MapReduce原理详解单机程序计算流程输入数据—>读取数据—>处理数据—>写入数据—>输出数据Hadoop计算流程input data:输入数据InputFormat:对数据进行切分,格式化处理map:将前面切分的数据做map处理(将数据进行分类,输出...原创 2019-09-02 23:02:53 · 387 阅读 · 0 评论