能不能别秃头-CSDN博客

原创 Java实现Kafka+Flink+HBase实时计算遇到的bug

Java实现Kafka+Flink+HBase实时计算遇到的bug一、打包篇1、打包是报错找不到符号idea菜单栏选择Build ——>Rebuild Project再重新打包即可2、打包maven的jar包完毕后在Linux运行时报错找不到主类报错忘记截图下来了……在主程序的pom.xml文件中加入如下代码：<build> <plugins>  &lt

2022-01-26 11:29:04 188

原创 Flume1.9.0 安装教程

压缩包——百度网盘链接：https://pan.baidu.com/s/1ejspUzn0bSoPMcX4rEzIVA提取码：xo7bps：我是安装在/data/soft目录下的一、解压tar -zxvf apache-flume-1.9.0-bin.tar.gz二、修改配置文件cd apache-flume-1.9.0-bin/cd conf#重命名mv flume-env.sh.template flume-env.sh vim flume-env.sh#配置JAV

2021-09-13 16:24:16 224

原创 Hadoop各个web界面网址

一、HDFS界面hadoop3.x.x: http://hostname:9870hadoop2.x.x: http://hostname:50070二、Yarn界面 http://hostname:8088三、Hbase界面： http://hostname:16010

2021-09-13 15:44:32 3678

原创推荐系统实战task04之特征工程

文章目录一、特征工程二、特征分析1、可以直接利用的特征2、构造特征，制作标签，形成监督学习的数据集3、特征制作的逻辑三、代码如下1、引入库2、节省内存函数3、定义数据路径4、获取历史点击和最后一次点击5、读取训练、验证及测试集6、读取召回列表7、读取各种Embedding8、读取文章信息9、读取数据10、对训练数据做负采样11、将召回数据转换成字典12、用户历史行为相关特征一、特征工程特征工程指的是把原始数据转变为模型的训练数据的过程，它的目的就是获取更好的训练数据特征，使得机器学习模型逼近这个上限

2020-12-03 20:51:48 373 1

原创推荐系统实战 task3之多路召回

文章目录一、多路召回是什么？二、召回路径1.I2I2.矩阵分解 - U2I3.聚类推荐 - U2U2I4.实时召回 - U2I2I5.基于内容 - U2Tag2I6.基于图的算法：U2***2I三、融合排序四、融合策略1、按顺序展示2、平均法3、加权平均4、动态加权法5、机器学习权重法小结参考未完待续一、多路召回是什么？“多路召回”策略，指的是采用不同的策略、特征或简单模型，分别召回一部分候选集，然后再把候选集混合在一起供后续排序模型使用。在设计召回层的时候，“计算速度”与“召回率”这两个指标是相互

2020-11-30 23:42:27 1658

原创推荐系统实战Task02——小白日记

推荐系统实战Task02——小白日记数据分析：数据分析的价值主要在于熟悉了解整个数据集的基本情况包括每个文件里有哪些数据，具体的文件中的每个字段表示什么实际含义，以及数据集中特征之间的相关性，在推荐场景下主要就是分析用户本身的基本属性，文章基本属性，以及用户和文章交互的一些分布，这些都有利于后面的召回策略的选择，以及特征工程。数据处理：1、导入包2、读取数据集中的所有文件item_df = pd.read_csv(path+'articles.csv')item_df = item_df

2020-11-27 21:05:07 223

原创推荐系统实战 Task01——小白笔记

推荐系统实战 Task01——小白笔记文章目录推荐系统实战 Task01——小白笔记题目要求Baseline导入库collections.defaultdict模块节约内存的一个标配函数数据预处理numpy.random.choice计算物品相似度总结题目要求根据用户点击的历史文章数据，为用户推荐最大概率会点击的五篇文章文章。Baseline中的关键就是文章与文章的相似性矩阵的计算。以下是我在跑通和理解Baseline时接触到的一些新知识。以及理解。Baseline导入库import

2020-11-25 19:06:42 327

weixin_43437466的博客