自由自在的鱼丶
咕噜咕噜
展开
-
大数据实战电商推荐系统(6)- 基于物品的协同过滤相似推荐(Item-CF算法)
文章目录1. 基于物品的协同过滤(Item-CF)2. 代码3. 结果展示数据获取和处理以及环境的配置详见上一篇文章: https://blog.csdn.net/qq_42754919/article/details/119679441基于物品的协同过滤(Item-CF),只需收集用户的常规行为数据(比如点击、收藏、购买)就可以得到商品间的相似度,在实际项目中应用很广。1. 基于物品的协同过滤(Item-CF)基于物品的协同过滤(Item-CF)主要思想:对于同一个用户购买的不同商品内部应该存在某原创 2021-08-14 21:01:21 · 869 阅读 · 1 评论 -
大数据实战电商推荐系统(5)- 基于内容的相似商品推荐(TF-IDF算法)
文章目录1.TD-IDF介绍2. 算法数据获取和处理以及环境的配置详见上一篇文章: https://blog.csdn.net/qq_42754919/article/details/119606604?spm=1001.2014.3001.5501每个商品都有标签,标签可以大致的概括商品的特征,但是并不是所有的标签对商品的特征影响性大。因此本文首先使用TD-IDF算法计算每个标签对商品的权重,将最终计算出的特征值转化为稀疏向量,利用余弦相似度计算两个商品之间的相似程度,用于推荐相似的商品。1.TD-原创 2021-08-13 19:57:12 · 1532 阅读 · 0 评论 -
大数据实战电商推荐系统(4)- 实时推荐服务根据最新评价商品推荐相似商品
文章目录1.创建文件+配置文件2. 模型+算法3.结果展示数据获取和处理详见上一篇文章:https://blog.csdn.net/qq_42754919/article/details/119545130这一节主要介绍实时推荐系统服务,根据当前用户最新的商品评价,推荐出相似度接近的商品,并根据当前用户之前评价的商品,计算每个推荐商品和之前评价商品之间的相似度,从高到低将备选商品推荐给当前用户。1.创建文件+配置文件pom.xml文件<?xml version="1.0" encodi原创 2021-08-11 15:30:41 · 1445 阅读 · 1 评论 -
大数据实战电商推荐系统(3)-基于隐语义模型的离线推荐模块
文章目录1.创建文件+配置文件2. 模型+算法2.1 隐语义模型2.2 商品相似度矩阵2.3 算法3. 模型调参数据获取和处理详见上一篇文章:https://blog.csdn.net/qq_42754919/article/details/119493103这一节主要介绍基于隐语义模型的协同过滤推荐算法,根据用户评价商品计算用户和商品之间的关系。最后生成用户推荐商品列表和商品相似度列表。1.创建文件+配置文件<?xml version="1.0" encoding="UTF-8"?>原创 2021-08-09 20:08:25 · 530 阅读 · 0 评论 -
大数据实战电商推荐系统(2)-离线统计服务(统计历史热门商品,近期热门商品,优质商品)
文章目录1. 创建文件+配置文件2.代码3.结果展示1. 创建文件+配置文件StatisticsRecommender下的pom.xml配置如下:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sche原创 2021-08-07 21:43:56 · 559 阅读 · 1 评论 -
大数据实战电商推荐系统(1)-数据加载和存储
文章目录1. 创建文件+配置文件2.代码3.结果展示数据集:链接:https://pan.baidu.com/s/1PbHV-pq_fF-ltQhj6yh5Hw提取码:q0bv1. 创建文件+配置文件具体的文件创建操作不再展示,最终创建文件如下:在这里插入图片描述ECommerceRecommendSystem下的pom.xml配置如下:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.原创 2021-08-07 20:50:49 · 612 阅读 · 0 评论 -
大数据Spark案例实操3–统计电商网站的用户行为页面单跳转换率统计
文章目录1.数据准备和分析2.需求说明3.代码1.数据准备和分析参考上篇博客https://blog.csdn.net/qq_42754919/article/details/1180710492.需求说明计算页面单跳转化率,什么是页面单跳转换率,比如一个用户在一次 Session 过程中访问的页面路径 3,5,7,9,10,21,那么页面 3 跳到页面 5 叫一次单跳,7-9 也叫一次单跳,那么单跳转化率就是要统计页面点击的概率。分析如下:页面是指同一个sessionID,在一个连续的原创 2021-06-22 22:06:45 · 602 阅读 · 2 评论 -
大数据Spark案例实操2–统计电商网站的用户行为每个品类的 Top10 活跃 Session 统计
文章目录1.数据准备和分析2.需求分析3.代码1.数据准备和分析参考上篇博客https://blog.csdn.net/qq_42754919/article/details/1180710492.需求分析在需求一的基础上,增加每个品类用户 session 的点击统计首先Top10活跃session统计必须要属于Top10热门品类session统计意思是用户对某页面点击量输出top10热门品类中按用户点击次数最多排序3.代码统计Top10热门品类分析和代码见另一个博客https:/原创 2021-06-22 20:19:35 · 398 阅读 · 1 评论 -
大数据Spark案例实操1–统计电商网站的用户行为数据Top10 热门品类(三种方法)
文章目录1.准备数据2. 需求分析3.代码-方法11.准备数据链接:https://pan.baidu.com/s/14RxFpmXun7Wj-unDUvjyVg提取码:mjk6上面的数据图是从数据文件中截取的一部分内容,表示为电商网站的用户行为数据,主要包含用户的 4 种行为:搜索,点击,下单,支付。数据规则如下::数据以_(下划线)为分隔符每一行数据表示用户的一次行为,这个行为只能是上诉 4 种行为的一种如果搜索关键字为 null,表示数据不是搜索数据针对于下单行为,一次可以下单多原创 2021-06-20 17:09:58 · 1612 阅读 · 7 评论 -
大数据Spark入门案例5–统计广告点击数量排行Top3(scala版本)
大数据Spark入门案例5–统计每广告点击数量排行Top3(scala版本)1 数据准备链接:https://pan.baidu.com/s/1afzmL-hNsAJl1_gx_dH2ag提取码:yybiagent.log:时间戳,省份,城市,用户,广告,中间字段使用空格分隔。2 需求分析统计出每一个省份每个广告被点击数量排行的 Top3首先将获取的数据进行切分,挑选需要的参数:省份+广告以省份和广告位为key,统计当前省份当前广告观看次数sum按省份进行分类排序输出top3数据原创 2021-06-16 14:53:35 · 1877 阅读 · 0 评论 -
大数据Spark入门案例4–RDD 转换算子Key-Value类型(scala版本)
大数据Spark入门案例43–RDD 转换算子Key-Value类型(scala版本)文章目录1.1 partitionBy()1.2 reduceByKey()1.3 groupByKey()1.4 groupByKey(K)(A,B)1.5 foldByKey(K)(A)1.6 combineByKey(A,B,C)1.1 partitionBy()将数据按照指定类型重新进行分区,Spark 默认的分区器是 HashPartitioner//将三个分区数据按照HashPartitioner分原创 2021-06-16 10:00:06 · 308 阅读 · 0 评论 -
大数据Spark入门案例3–RDD 转换算子Value类型(scala版本)
大数据Spark入门案例3–RDD 转换算子(scala版本)文章目录1.1 map()1.2 mapPartitions()1.3mapPartitionsWithIndex()1.4 flatMap()1.5 glom()1.6 groupBy()1.7 filter()1.7 distinct(num)1.8 coalesce()+repartition()1.9 sortBy(A,B)1.1 map()将处理的数据逐条进行映射转换,这里的转换可以是类型的转换,也可以是值的转换。val r原创 2021-06-15 09:49:23 · 373 阅读 · 1 评论 -
大数据Spark入门案例2–读文件+分区(python+scala版本)
大数据Spark入门案例2–读文件+分区(python+scala版本)文章目录1.读文件1.scala版本1.1从内存中创建RDD2.从外部存储(文件)创建 RDD2.python版本2.分区1.scala版本2.python版本1.读文件1.scala版本1.1从内存中创建RDD从集合中创建 RDD,Spark 主要提供了两个方法:parallelize 和 makeRDD。从内存中创建数列集合。parallelize()makeRDD()package com.root.RDDi原创 2021-06-09 15:14:10 · 325 阅读 · 3 评论 -
大数据Spark入门案例1–wordcount(python+scala版本)
大数据Spark入门案例1–wordcount(python+scala版本)文章目录1.Scala版本1.Scala版本使用IDEA软件,导入spark和scala依赖和包,本文已经搭建完毕。创建Maven工程,然后创建scala文件。原创 2021-06-06 21:40:13 · 331 阅读 · 2 评论 -
大数据hadoop入门案例6–Yarn常用命令和参数配置
大数据hadoop入门案例6–Yarn常用命令1.列出所有 Applicationyarn application -list2. 根据 Application 状态过滤:(所有状态:ALL、NEW、NEW_SAVING、SUBMITTED、ACCEPTED、RUNNING、FINISHED、FAILED、KILLED)yarn application -list -appStates ALL(状态)3. Kill 掉 Applicationyarn application -kill a原创 2021-06-02 15:13:08 · 424 阅读 · 0 评论 -
大数据hadoop入门案例5–Reducer阶段join和Map阶段join
大数据hadoop入门案例4–join应用此博客作为本文学习hadoop大数据内容,内容可能存在不够全面或者存在偏差。文章目录1.Reduce Join1.1FlowBean1.2Mapper1.3Reducer1.4Driver1.5输入和输出2.Mapper Join2.1Mapper2.2Driver1.Reduce Join1.1FlowBean将参数序列化存储在内存中。package com.root.jointable;import org.apache.hadoop.io.Wr原创 2021-05-29 11:22:58 · 160 阅读 · 0 评论 -
大数据hadoop入门案例4–OutputFormat接口输出不同文件中
大数据hadoop入门案例4–OutputFormat接口输出不同文件中此博客作为本文学习hadoop大数据内容,内容可能存在不够全面或者存在偏差。文章目录1.OutputFormat2.代码2.1Mapper2.2Reducer2.3OutputFormat2.4LogLogRecordWriter2.5Driver3.输入+输出3.1输入3.2输出1.OutputFormatMapReducer有默认的文件输出流,但是当需要根据输入内容输出到不同的文件中,需要重新编写OutputFormat。原创 2021-05-28 11:12:23 · 158 阅读 · 0 评论 -
大数据hadoop入门案例3--对手机号码排序
大数据hadoop入门案例–对手机号码排序文章目录1.排序2.代码2.1FlowBean 序列化代码2.2Mapper代码2.3Reducer代码2.4Driver代码3.输入和输出3.1输入3.2输出4.分区并排序4.1 输出1.排序MapTask和ReduceTask均会对数据按 照key进行排序。因此在实现排序任务时,需要将排序数据传入Key中。默认排序是按照字典顺序排序,且实现该排序的方法是快速排序。1.部分排序:MapReduce根据输入记录的键对数据集排序。保证输出的每个文件内部有序原创 2021-05-27 09:57:55 · 354 阅读 · 1 评论 -
大数据hadoop入门案例2--对手机号码序列化+切片+分区
大数据hadoop入门案例–序列化+分区+排序此博客作为本文学习hadoop大数据内容,内容可能存在不够全面或者存在偏差。文章目录1.定义2.代码2.1FlowBean 序列化代码2.2Partitioner分区代码2.3Mapper代码2.4Reducer代码2.4Driver代码3.输入,输出3.1输入数据3.2输出1.定义1.序列化:将内存中的对象转化为字节序列以便存储到磁盘和网络传输。2.反序列化:将收到的字节序列或磁盘的持久化数据转换为内存中的对象。3.切片:在逻辑上将数据分原创 2021-05-26 10:29:25 · 370 阅读 · 0 评论 -
大数据hadoop入门示例1-WordCount
Hadoop入门案例–实现WordCount文章目录1.环境配置1.1 pom.xml文件2.resources文件2.创建运行文件2.1创建工程2.2 创建Mapper2.3创建Reducer文件2.4创建Driver3 输入和输出4.1.环境配置1.1 pom.xml文件在maven工程里导入hadoop包,hadoop版本应该和window环境下配置的hadoop环境保持一致。<dependencies> <dependency>原创 2021-05-25 09:51:25 · 262 阅读 · 3 评论 -
An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
文章目录1.解决问题2.创建文件夹3.上传文件到指定文件夹1.解决问题一开始在本地读取HDFS内的文件,使用下面代码一直报错,翻了很多CSDN博客,配置环境和降低版本都无法解决。from pyspark import SparkContextsc=SparkContext()rdd1=sc.textFile("/test/food.txt")result=rdd1.collect()print(result)后面在别人的博客中发现textFile读取文件时路径存在问题,更改如下:fro原创 2020-11-02 21:55:52 · 11853 阅读 · 0 评论 -
windows安装Spark3.0.0+hadoop+JDK大数据开发平台
文章目录1.安装Java/Jdk2.Hadoop安装3.安装spark最近打算学习大数据,需要用到spark开放平台,根据CSDN攻略和自己实际遇到的问题进行修改。从安装JDK到Hadoop和Spark。1.安装Java/Jdk根据自己的电脑安装对应的版本,这里选择安装window64位jdk下载地址:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html下载完毕安装即可,记住自己的安装路径,后面需要原创 2020-10-31 16:31:05 · 2036 阅读 · 0 评论