自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 大数据智能推荐系统原理介绍

一.什么是推荐系统:通过算法分析用户喜欢什么,再把那些分析出来用户会喜欢的东西推荐给用户。二.为什么要用推荐系统:主要有以下三点好处:1.用户:得到想要的物品2.平台:获得更多的流量和收入3.内容提供商:提高售卖效率据了解,亚马逊有20%~30%的销售来自于推荐系统。大拿语录: ——杰夫.贝佐斯三.我们该如何推荐:刚刚说到是通过算法分析用户喜欢什么,那么都有哪些算法呢?是如何...

2019-03-07 17:58:41 14645 1

原创 如何从海量用户发布的内容中挖掘出各城市时下的最热话题

一. 目的:想知道在最近几个小时内各大城市不同分类栏目下,所有用户所发布的帖子中被讨论最热的话题是什么。二. 方法:在每个城市对应不同栏目的帖子文本中,找到内容相似的那一类帖子,如果这类帖子的数量达到一定阈值,便认为该类帖子属于热点帖子,再从热点类中抽取关键高频短句,作为话题。话题抽取部分结果展示三.步骤:1)数据清洗:通过正则表达式清洗掉帖子内容中html标签等无关字符。2) ...

2019-09-29 11:46:51 651

原创 推荐系统项目整理

一. 数据基础:主要包括:用户行为数据:来源于用户行为日志,通过flume采集至HDFS用户画像数据:来源于用户注册,保存至Hbase用户表物品元数据:来源于内容管理系统,通过flume采集至HDFS二. 推荐算法(粗排)基于内容的推荐(简称CB):(1)将HDFS中的物品元数据写入Hbase倒排表(2)读取Hbase倒排表中数据20w+索引数据,以token(关键词)为r...

2019-08-11 22:35:58 2658

原创 机器学习常用算法原理及优缺点

KNN核心思想是:物以类聚,人以群分根据两点距离公式,计算距离,选择距离最小的前k个点,并返回分类结果。假设一个未知样本数据x需要归类,总共有ABC三个类别,那么离x距离最近的有k个邻居,这k个邻居里有k1个邻居属于A类,k2个邻居属于B类,k3个邻居属于C类,如果k1>k2>k3,那么x就属于A类,也就是说x的类别完全由邻居来推断出来算法步骤为:1、计算测试对象到训练集...

2019-07-21 23:42:43 969 1

原创 大数据项目实战:Spark基于协同的推荐算法(商品离线相似度计算)

基于协同的推荐算法(CF):读取HDFS中32w+索引数据,通过spark进行基于协同的离线相似度计算,得到每个商品的相关推荐商品品列表,按score排序后取TOP20,(itemA–>itemB:score,itemC:score)32w+用户行为数据:总用时1.5min结果数据量:推荐结果部分展示:from pyspark import SparkContext, S...

2019-07-21 13:32:35 1013

原创 大数据项目实战:Spark基于内容的推荐算法(商品离线相似度计算)

基于内容的推荐算法(CB):读取Hbase倒排表中数据20w+索引数据,以token(关键词)为rowkey,每个itemID为column,score为value通过spark进行基于内容的离线相似度计算,得到每个物品的相关推荐物品列表,按score排序后取TOP20,(itemA–>itemB:score,itemC:score)总用时12min得到605219个item的相关...

2019-07-21 11:39:23 2820 1

原创 大数据项目实战:新发布商品实时相关推荐(解决商品冷启动问题)

新发布商品实时相关推荐实时处理新商品元数据,基于内容相似度推荐,解决商品冷启动问题应用场景:1新发布商品被用户点击后在列表页推荐相似商品2.新发布商品详情页相关推荐栏核心组件:flume+kafka+spark+hbase+sparkstreaming+redis1.0启动zookeeper:master,slave1,slave2启动kafka集群./bin/kafka-se...

2019-07-17 12:05:58 389

原创 大数据项目实战:热点搜索词实时滑动统计

热点搜索词滑动统计每隔60秒钟,统计最近300秒钟的搜索词的搜索频次,并打印出排名最靠前的5个搜索词以及出现次数。(60秒为数据更新频率,300秒为更新数据的时间范围。)普通SparkStreaming处理方式,如果将时间间隔设置成300s,无法每隔60s输出一次结果;如果将时间间隔设置成300s,同时使用updatebyKeyState,那么统计的是持续的累加结果,无法做到统计300s之内的...

2019-07-17 11:42:55 985

原创 Hadoop大数据集群配置流程详解

环境:四台centos7.5阿里云服务器,hadoop2.6.5,jdk1.8.0各节点IP(栗子):172.17.0.0 master172.17.0.1 slave1172.17.0.2 slave2172.17.0.3 slave31.进入172.17.0.0服务器,修改hosts文件vi /etc/hosts172.17.0.0 master172....

2019-03-08 15:18:30 236

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除