大数据
文章平均质量分 78
lucky-zhao
这个作者很懒,什么都没留下…
展开
-
实时产生推荐结果
需要准备一个dataframe 包含 用户id 物品id 用户-物品评分 这三列,利用这三列数据就可以使用spark ALS模块训练ALS模型。①准备数据,准备一个dataframe,所有的特征放到dataframe的一列中,目标放到dataframe的一列中。又对数据进行处理,把可能进行one-hot编码的分类特征都进行one_hot处理。CTR预测模型 + 特征 ==> 预测结果 ==> TOP-N列表。spark ML的库中封装了 协同过滤的 ALS模型。训练出模型之后就可以为用户召回物品。原创 2023-01-19 08:47:20 · 171 阅读 · 1 评论 -
实时产生推荐结果
CTR预测模型 + 特征 ==> 预测结果 ==> TOP-N列表。原创 2023-01-19 08:42:27 · 54 阅读 · 0 评论 -
LR实现CTR预估&离线推荐处理
逻辑回归训练模型显示结果:五 离线推荐数据缓存5.1离线数据缓存之离线召回集这里主要是利用我们前面训练的ALS模型进行协同过滤召回,但是注意,我们ALS模型召回的是用户最感兴趣的类别,而我们需要的是用户可能感兴趣的广告的集合,因此我们还需要根据召回的类别匹配出对应的广告。所以这里我们除了需要我们训练的ALS模型以外,还需要有一个广告和类别的对应关系。根据指定的类别找到对应的广告显示结果:利用ALS模型进行类别的召回显示结果:显示结果:显示结果:传原创 2023-01-18 08:48:51 · 289 阅读 · 0 评论 -
基于LR的点击率预测模型训练
本小节主要根据广告点击样本数据集(raw_sample)、广告基本特征数据集(ad_feature)、用户基本信息数据集(user_profile)构建出了一个完整的样本数据集,并按日期划分为了训练集(前七天)和测试集(最后一天),利用逻辑回归进行训练。类别性特征都可以考虑进行热独编码,将单一变量变为多变量,相当于增加了相关特征的数量。训练模型时,通过对类别特征数据进行处理,一定程度达到提高了模型的效果。但由于cms_segid分类过多,这里考虑舍弃,避免数据过于稀疏。原创 2023-01-18 08:41:07 · 419 阅读 · 1 评论 -
分析并预处理user_profile数据集
对于多类分类,标签应该是从零开始的类索引:0, 1, 2, …以上四个特征均属于分类特征,但由于分类值个数均过于庞大,如果去做热独编码处理,会导致数据过于稀疏 且当前我们缺少对这些特征更加具体的信息,(如商品类目具体信息、品牌具体信息等),从而无法对这些特征的数据做聚类、降维处理 因此这里不选取它们作为特征。但根据我们的经验,我们的广告推荐其实和用户的消费水平、用户所在城市等级都有比较大的关联,因此在这里pvalue_level、new_user_class_level都是比较重要的特征,我们不考虑舍弃。原创 2023-01-17 08:24:48 · 132 阅读 · 0 评论 -
CTR预估数据准备
热独编码是一种经典编码,是使用N位状态寄存器(如0和1)来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。["男“,”上海“,”小米“]=[ 1,0,0,1,0,0,1,0,0]["女“,”北京“,”苹果“] =[0,1,1,0,0,1,0,0,0][“苹果”, “小米”, “华为”, “微软”][0,1,2,3][“北京”, “上海”, “广州”][0,1,2]["男“,”上海“,”小米“]=[ 0,1,1]["女“,”北京“,”苹果“] =[1,0,0]原创 2023-01-17 08:19:33 · 259 阅读 · 0 评论 -
根据用户对品牌偏好打分训练ALS模型
基于Spark的ALS隐因子模型进行CF评分预测ALS的意思是交替最小二乘法(Alternating Least Squares),是Spark中进行基于模型的协同过滤(model-based CF)的推荐系统算法,也是目前Spark内唯一一个推荐算法。同SVD,它也是一种矩阵分解技术,但理论上,ALS在海量数据的处理上要优于SVD。注意:由于数据量巨大,因此这里不考虑基于内存的CF算法使用pyspark中的ALS矩阵分解方法实现CF评分预测。原创 2023-01-16 12:06:17 · 301 阅读 · 0 评论 -
根据用户对类目偏好打分训练ALS模型
ALS的意思是交替最小二乘法(Alternating Least Squares),是Spark2.*中加入的进行基于模型的协同过滤(model-based CF)的推荐系统算法。但这里我们将使用的Spark的ALS模型进行CF推荐,因此注意这里数据输入不需要提前转换为矩阵,直接是 USER-ITEM-RATE的数据。注意:由于数据量巨大,因此这里也不考虑基于内存的CF算法。同SVD,它也是一种矩阵分解技术,对数据进行降维处理。基于Spark的ALS隐因子模型进行CF评分预测。原创 2023-01-16 12:04:43 · 368 阅读 · 0 评论 -
根据用户行为数据创建ALS模型并召回商品
方便练习可以对数据做拆分处理。原创 2023-01-15 11:02:44 · 118 阅读 · 0 评论 -
个性化电商广告推荐系统介绍
Ali_Display_Ad_Click是阿里巴巴提供的一个淘宝展示广告点击率预估数据集数据集来源:天池竞赛原始样本骨架raw_sample淘宝网站中随机抽样了114万用户8天内的广告展示/点击日志(2600万条记录),构成原始的样本骨架。user_id:脱敏过的用户ID;adgroup_id:脱敏过的广告单元ID;time_stamp:时间戳;pid:资源位;noclk:为1代表没有点击;为0代表点击;clk:为0代表没有点击;为1代表点击;原创 2023-01-15 10:58:55 · 507 阅读 · 0 评论 -
HBase组件详解
可以启动多个HMaster,通过Zookeeper的Master Election机制保证总有一个Master运行。可以启动多个HMaster,通过Zookeeper的Master Election机制保证总有一个Master运行。HBase中最核心的模块,主要负责响应用户I/O请求,向HDFS文件系统中读写数据。HBase中最核心的模块,主要负责响应用户I/O请求,向HDFS文件系统中读写数据。原创 2023-01-14 10:32:49 · 654 阅读 · 0 评论 -
HBase表设计
设计表保存应用中用户互粉的信息。原创 2023-01-14 10:30:56 · 542 阅读 · 0 评论 -
Hive 函数&hadoop版本的详细概述
UDF当 Hive 提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。TRANSFORM,andUDFandUDAFUDF:就是做一个mapper,对每一条输入数据,映射为一条输出数据。UDAF:就是一个reducer,把一组输入数据映射为一条(或多条)输出数据。一个脚本至于是做mapper还是做reducer,又或者是做udf还是做udaf,取决于我们把它放在什么样的hive操作符中。原创 2023-01-13 08:34:34 · 423 阅读 · 0 评论 -
Hive 基本操作
这个命令将student.txt文件复制到hive的warehouse目录中,这个目录由hive.metastore.warehouse.dir配置项设置,默认值为/user/hive/warehouse。Overwrite选项将导致Hive事先删除student目录下所有的文件, 并将文件内容映射到表中。外部分区表即使有分区的目录结构, 也必须要通过hql添加分区, 才能看到相应的数据。此时查看表中数据发现数据并没有变化, 需要通过hql添加分区。此时再次查看才能看到新加入的数据。将数据load到表中。原创 2023-01-13 07:58:47 · 85 阅读 · 0 评论 -
HappyBase操作Hbase
HappyBase 是FaceBook员工开发的操作HBase的python库, 其基于Python Thrift, 但使用方式比Thrift简单, 已被广泛应用。启动hbase thrift server : hbase-daemon.sh start thrift。使用happy base时可能出现的问题(windows系统)如何使用HappyBase。什么是HappyBase。安装happy base。原创 2023-01-12 08:05:11 · 494 阅读 · 0 评论 -
HBase 的安装与实战
端口60010打不开的情况,是因为hbase 1.0 以后的版本,需要自己手动配置,在文件 hbase-site。启动hbase(启动的hbase的时候要保证hadoop集群已经启动)put ‘表名’,‘rowkey的值’,’列族:列标识符‘,’值‘HBase 追加型数据库 会保留多个版本数据。配置hbase-site.xml。配置hbase-env.sh。原创 2023-01-12 08:01:54 · 191 阅读 · 0 评论 -
HBase简介与环境部署
HBase是一个分布式的、面向列的开源数据库HBase是Google BigTable的开源实现HBase不同于一般的关系数据库, 适合非结构化数据存储结构化数据适合用二维表来展示的数据非结构化数据非结构化数据是数据结构不规则或不完整没有预定义的数据模型不方便用数据库二维逻辑表来表现办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等。原创 2023-01-11 07:54:04 · 82 阅读 · 0 评论 -
hive综合案例
CONCAT_WS() 代表 CONCAT With Separator ,是CONCAT()的特殊形式。第一个参数是其它参数的分隔符。分隔符的位置放在要连接的两个字符串之间。返回结果为连接参数产生的字符串。将用户查看的关键字和频率合并成 key:value形式并按用户聚合。将用户查看的关键字和频率合并成 key:value形式。从表中获取map中所有的key 和 所有的value。根据文章id找到用户查看文章的关键字并统计频率。根据文章id找到用户查看文章的关键字。将用户的阅读偏好结果保存到表中。原创 2023-01-11 07:49:34 · 306 阅读 · 0 评论 -
Hive内容详细简介
什么是 Hive。原创 2023-01-10 11:24:03 · 89 阅读 · 0 评论 -
hadoop内容详解
hadoop-2.6.0-cdh-5.7.0 和 Flume*****-cdh5.7.0 cdh版本一致 的各个组件配合是有不会有兼容性问题。8 月 18 号早晨发现 8 月 17 号的订单量没有恢复正常,运营人员开始尝试寻找原因。通过数据分析指标监控企业运营状态, 及时调整运营和产品策略,是大数据技术的关键价值之一。大数据平台(互联网企业)运行的绝大多数大数据计算都是关于数据分析的。运营人员发现从 8 月 15 日开始,网站的订单量连续四天明显下跌。运营数据的获取需要大数据平台的支持。原创 2023-01-10 11:16:36 · 112 阅读 · 0 评论 -
Hadoop生态系统详解
(注:WAL,write ahead log,先写Log,再写内存,因为EditLog记录的是最新的HDFS客户端执行所有的写操作。如果后续真实写操作失败了,由于在真实写操作之前,操作就被写入EditLog中了,故EditLog中仍会有记录,我们不用担心后续client读不到相应的数据块,因为在第5步中DataNode收到块后会有一返回确认信息,若没写成功,发送端没收到确认信息,会一直重试,直到成功)正确的做法是写完一个block块后,对校验信息进行汇总分析,就能得出是否有块写错的情况发生)原创 2023-01-10 11:12:32 · 2030 阅读 · 0 评论 -
分布式处理框架 MapReduce
注:hadoop-streaming会主动将map的输出数据进行字典排序。通过Hadoop Streaming 提交作业到Hadoop集群。MapReduce编程分Map和Reduce阶段。Word Count 词频统计案例。MapReduce分而治之的思想。MapReduce编程执行步骤。到Hadoop集群查看运行结果。到Hadoop集群查看运行结果。原创 2023-01-09 09:42:43 · 108 阅读 · 0 评论 -
YARN&MapReduce简介
2,ResourceManager 进程和 NodeManager 进程通信,根据集群资源,为用户程序分配第一个Container(容器),并将 ApplicationMaster 分发到这个容器上面。5,ApplicationMaster申请到资源后,向对应的NodeManager申请启动Container,将要执行的程序分发到NodeManager上。不同计算框架可以共享同一个HDFS集群上的数据,享受整体的资源调度。6,Container启动后,执行对应的任务。5)停止YARN相关的进程。原创 2023-01-09 09:35:50 · 88 阅读 · 0 评论 -
ha1.2
知道Hadoop的概念及发展历史说出hadoop的核心组件知道hadoop的优势Hadoop名字的由来Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名Apache™ Hadoop® 是一个开源的,可靠的可扩展的(scalable)分布式计算框架允许使用简单的编程模型跨计算机集群分布式处理大型数据集可扩展: 从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储可靠的。原创 2023-01-08 19:14:18 · 63 阅读 · 0 评论