基于宠物用品电商搜索条目的聚类分析

通过对667条宠物商品搜索关键字进行聚类,包括层次聚类和kmeans聚类,旨在优化用户购物体验,将相似商品归类。通过处理数据、创建dtm矩阵、降维和聚类分析,确定k=14为最佳分类数,验证结果显示聚类效果良好。
摘要由CSDN通过智能技术生成

目标

针对667条宠物商品的搜索关键字进行聚类,将相似度高的条目聚为一类。在用户搜索某一商品时,电商平台能据此为用户展示类似的商品,从而提高用户的购物体验。

思路

首先明确这是一个聚类问题,而不是分类。因为商品类目本身是没有标签的,用机器学习的话来说,这是一个无监督学习的问题。接着,分析大致做法:
1. 数据导入
2. 处理数据(转化为语料库,再进行清洗过程)
3. 创建文档词条矩阵dtm,是一个稀疏矩阵
4. 对稀疏的矩阵进行降维,并转为标准矩阵格式
5. 聚类分析
- kmeans聚类
- 层次聚类
6. 检验聚类结果

过程

1.数据导入

setwd("F:/研究生/课程/R")
Raw <- read.csv("Raw.csv", header = TRUE)
Raw <- Raw[,1]
Raw <- as.matrix(Raw)
head(Raw)

查看前6行的商品词条

[1] "CAT TREE POST SCRATCHER FURNITURE PLAY HOUSE PET BED KITTEN TOY BEIGE"    
[2] "DELUXE CAT TREE 36INCH CONDO FURNITURE SCRATCHING POST PET HOUSE PLAY TOY"
[3] "SMALL WARMING CAT DOG COVERED BED HOOD MICROFLEECE LINING FOAM FILLED"    
[4] "PET HEATING PAD RADIENT BED WARMER CAT DOG USA SELLER FREE SHIPPING"      
[5] "OUTDOOR HEATED PAD KITTY PAD"                                             
[6] "SUNNY SEAT WINDOW CAT BED"  

2. 处理数据

调用tm包——文本挖掘常用的R包

library(tm)
corp <- Corpus(DataframeSource(Raw))
writeLines(as.character(corp[[2]]))
lapply(corp, as.character)

可以查看某个文档以及每个文档的内容:
第2个文档包含的词条内容是:

DELUXE
摘 要 在电子商务蓬勃发展与广泛应用的同时, 所有电子商务决策者们都面临着一 个棘手的问题:如何在不涉及用户隐私的情况下对网站上的海量信息进行挖掘, 并将挖掘结果应用于电子商务决策支持, 以此来提升电子商务竞争力?Web数据 挖掘技术由此而诞生。Web数据挖掘作为电子商务系统的一项重要应用技术,为 电子商务公司的商业决策提供强有力的支持。但是,目前国内的大多数中小型电 子商务企业,其电子商务发展还不是很完善,对将 Web 数据挖掘技术与电子商 务结合为电子商务提供决策支持方面, 无论是理论研究还是应用研究都还不是很 完善。基于此,本文主要从应用的角度将 Web 数据挖掘技术与电子商务结合进 行探讨和研究,主要内容和研究成果如下: (1)首先对 Web 数据挖掘的概念、特点、难点、分类以及 Web 数据挖掘 的流程及其在电子商务中的应用优势都作了很详尽的论述。 (2) 研究了国内中小型电子商务网站服务器数据的特点和数据的物理意义, 并以此为依据寻找合适的方法对数据进行预处理。 针对电子商务网站的浏览用户 特点,将用户分成外部登录用户和内部系统用户来分析,为聚类分析和电子商务 应用研究提供可靠、有效的数据。 (3)在理解和掌握快速聚类算法的基础上,针对 ……
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值