大数据
善良的弹壳
主要分享爬虫、数据挖掘、推荐算法相关学习与实践经验。代码以基于python、scrapy、hadoop、spark等为主
展开
-
Hadoop大数据集群配置流程详解
环境:四台centos7.5阿里云服务器,hadoop2.6.5,jdk1.8.0各节点IP(栗子):172.17.0.0 master172.17.0.1 slave1172.17.0.2 slave2172.17.0.3 slave31.进入172.17.0.0服务器,修改hosts文件vi /etc/hosts172.17.0.0 master172....原创 2019-03-08 15:18:30 · 238 阅读 · 0 评论 -
大数据智能推荐系统原理介绍
一.什么是推荐系统:通过算法分析用户喜欢什么,再把那些分析出来用户会喜欢的东西推荐给用户。二.为什么要用推荐系统:主要有以下三点好处:1.用户:得到想要的物品2.平台:获得更多的流量和收入3.内容提供商:提高售卖效率据了解,亚马逊有20%~30%的销售来自于推荐系统。大拿语录: ——杰夫.贝佐斯三.我们该如何推荐:刚刚说到是通过算法分析用户喜欢什么,那么都有哪些算法呢?是如何...原创 2019-03-07 17:58:41 · 14828 阅读 · 1 评论 -
大数据项目实战:热点搜索词实时滑动统计
热点搜索词滑动统计每隔60秒钟,统计最近300秒钟的搜索词的搜索频次,并打印出排名最靠前的5个搜索词以及出现次数。(60秒为数据更新频率,300秒为更新数据的时间范围。)普通SparkStreaming处理方式,如果将时间间隔设置成300s,无法每隔60s输出一次结果;如果将时间间隔设置成300s,同时使用updatebyKeyState,那么统计的是持续的累加结果,无法做到统计300s之内的...原创 2019-07-17 11:42:55 · 1008 阅读 · 0 评论 -
大数据项目实战:新发布商品实时相关推荐(解决商品冷启动问题)
新发布商品实时相关推荐实时处理新商品元数据,基于内容相似度推荐,解决商品冷启动问题应用场景:1新发布商品被用户点击后在列表页推荐相似商品2.新发布商品详情页相关推荐栏核心组件:flume+kafka+spark+hbase+sparkstreaming+redis1.0启动zookeeper:master,slave1,slave2启动kafka集群./bin/kafka-se...原创 2019-07-17 12:05:58 · 405 阅读 · 0 评论 -
大数据项目实战:Spark基于内容的推荐算法(商品离线相似度计算)
基于内容的推荐算法(CB):读取Hbase倒排表中数据20w+索引数据,以token(关键词)为rowkey,每个itemID为column,score为value通过spark进行基于内容的离线相似度计算,得到每个物品的相关推荐物品列表,按score排序后取TOP20,(itemA–>itemB:score,itemC:score)总用时12min得到605219个item的相关...原创 2019-07-21 11:39:23 · 2859 阅读 · 1 评论 -
大数据项目实战:Spark基于协同的推荐算法(商品离线相似度计算)
基于协同的推荐算法(CF):读取HDFS中32w+索引数据,通过spark进行基于协同的离线相似度计算,得到每个商品的相关推荐商品品列表,按score排序后取TOP20,(itemA–>itemB:score,itemC:score)32w+用户行为数据:总用时1.5min结果数据量:推荐结果部分展示:from pyspark import SparkContext, S...原创 2019-07-21 13:32:35 · 1032 阅读 · 0 评论 -
推荐系统项目整理
一. 数据基础:主要包括:用户行为数据:来源于用户行为日志,通过flume采集至HDFS用户画像数据:来源于用户注册,保存至Hbase用户表物品元数据:来源于内容管理系统,通过flume采集至HDFS二. 推荐算法(粗排)基于内容的推荐(简称CB):(1)将HDFS中的物品元数据写入Hbase倒排表(2)读取Hbase倒排表中数据20w+索引数据,以token(关键词)为r...原创 2019-08-11 22:35:58 · 2681 阅读 · 0 评论 -
如何从海量用户发布的内容中挖掘出各城市时下的最热话题
一. 目的:想知道在最近几个小时内各大城市不同分类栏目下,所有用户所发布的帖子中被讨论最热的话题是什么。二. 方法:在每个城市对应不同栏目的帖子文本中,找到内容相似的那一类帖子,如果这类帖子的数量达到一定阈值,便认为该类帖子属于热点帖子,再从热点类中抽取关键高频短句,作为话题。话题抽取部分结果展示三.步骤:1)数据清洗:通过正则表达式清洗掉帖子内容中html标签等无关字符。2) ...原创 2019-09-29 11:46:51 · 660 阅读 · 0 评论