善良的弹壳-CSDN博客

原创大数据智能推荐系统原理介绍

一．什么是推荐系统：通过算法分析用户喜欢什么，再把那些分析出来用户会喜欢的东西推荐给用户。二．为什么要用推荐系统：主要有以下三点好处：1.用户：得到想要的物品2.平台：获得更多的流量和收入3.内容提供商:提高售卖效率据了解，亚马逊有20%～30%的销售来自于推荐系统。大拿语录： ——杰夫.贝佐斯三．我们该如何推荐:刚刚说到是通过算法分析用户喜欢什么，那么都有哪些算法呢？是如何...

2019-03-07 17:58:41 14927 1

原创如何从海量用户发布的内容中挖掘出各城市时下的最热话题

一．目的:想知道在最近几个小时内各大城市不同分类栏目下，所有用户所发布的帖子中被讨论最热的话题是什么。二．方法：在每个城市对应不同栏目的帖子文本中，找到内容相似的那一类帖子，如果这类帖子的数量达到一定阈值，便认为该类帖子属于热点帖子，再从热点类中抽取关键高频短句，作为话题。话题抽取部分结果展示三．步骤：1）数据清洗：通过正则表达式清洗掉帖子内容中html标签等无关字符。2) ...

2019-09-29 11:46:51 686

原创推荐系统项目整理

一．数据基础：主要包括：用户行为数据：来源于用户行为日志，通过flume采集至HDFS用户画像数据：来源于用户注册，保存至Hbase用户表物品元数据：来源于内容管理系统，通过flume采集至HDFS二．推荐算法(粗排)基于内容的推荐（简称CB）：(1)将HDFS中的物品元数据写入Hbase倒排表(2)读取Hbase倒排表中数据20w+索引数据，以token（关键词）为r...

2019-08-11 22:35:58 2709

原创机器学习常用算法原理及优缺点

KNN核心思想是：物以类聚，人以群分根据两点距离公式，计算距离，选择距离最小的前k个点，并返回分类结果。假设一个未知样本数据x需要归类，总共有ABC三个类别，那么离x距离最近的有k个邻居，这k个邻居里有k1个邻居属于A类，k2个邻居属于B类，k3个邻居属于C类，如果k1>k2>k3，那么x就属于A类，也就是说x的类别完全由邻居来推断出来算法步骤为：1、计算测试对象到训练集...

2019-07-21 23:42:43 994 1

原创大数据项目实战：Spark基于协同的推荐算法（商品离线相似度计算）

基于协同的推荐算法（CF）：读取HDFS中32w+索引数据，通过spark进行基于协同的离线相似度计算，得到每个商品的相关推荐商品品列表，按score排序后取TOP20，（itemA–>itemB:score,itemC:score）32w+用户行为数据：总用时1.5min结果数据量：推荐结果部分展示：from pyspark import SparkContext, S...

2019-07-21 13:32:35 1041

原创大数据项目实战：Spark基于内容的推荐算法（商品离线相似度计算）

基于内容的推荐算法（CB）：读取Hbase倒排表中数据20w+索引数据，以token（关键词）为rowkey，每个itemID为column，score为value通过spark进行基于内容的离线相似度计算，得到每个物品的相关推荐物品列表，按score排序后取TOP20，（itemA–>itemB:score,itemC:score）总用时12min得到605219个item的相关...

2019-07-21 11:39:23 2901 1

原创大数据项目实战：新发布商品实时相关推荐(解决商品冷启动问题)

新发布商品实时相关推荐实时处理新商品元数据，基于内容相似度推荐，解决商品冷启动问题应用场景：1新发布商品被用户点击后在列表页推荐相似商品2.新发布商品详情页相关推荐栏核心组件：flume+kafka+spark+hbase+sparkstreaming+redis1.0启动zookeeper：master，slave1，slave2启动kafka集群./bin/kafka-se...

2019-07-17 12:05:58 427

热点搜索词滑动统计每隔60秒钟，统计最近300秒钟的搜索词的搜索频次，并打印出排名最靠前的5个搜索词以及出现次数。（60秒为数据更新频率，300秒为更新数据的时间范围。）普通SparkStreaming处理方式，如果将时间间隔设置成300s，无法每隔60s输出一次结果；如果将时间间隔设置成300s，同时使用updatebyKeyState，那么统计的是持续的累加结果，无法做到统计300s之内的...

2019-07-17 11:42:55 1050

原创 Hadoop大数据集群配置流程详解

环境：四台centos7.5阿里云服务器，hadoop2.6.5,jdk1.8.0各节点IP（栗子）：172.17.0.0 master172.17.0.1 slave1172.17.0.2 slave2172.17.0.3 slave31.进入172.17.0.0服务器，修改hosts文件vi /etc/hosts172.17.0.0 master172....

2019-03-08 15:18:30 247

weixin_37736146的博客