头条NLP推荐系统项目（1）——项目架构与数据导入

最新推荐文章于 2023-08-06 20:19:38 发布

Gwynbleidddd

最新推荐文章于 2023-08-06 20:19:38 发布

阅读量828

点赞数 1

分类专栏：推荐系统

本文链接：https://blog.csdn.net/qq5024581/article/details/114270174

版权

推荐系统专栏收录该内容

8 篇文章 4 订阅

订阅专栏

11.1 黑马头条推荐业务架构介绍

1.1.1业务

在头条APP海量用户与海量文章之上，使用lambda大数据实时和离线计算整体架构，利用黑马头条用户在APP上的点击行为、浏览行为、收藏行为等建立用户与文章之间的画像关系，通过机器学习推荐算法进行智能推荐

1.1.2 架构与业务流

1、用户的行为收集，业务数据收集
2、批量计算(离线计算)：用户文章画像
3、用户的召回结果、排序精选过程
4、grpc的实时推荐业务流的搭建
- 缓存

1.3 开发环境介绍

1.3.1 虚拟机设备

1.3.3 python环境

分布式环境：Hbase会遇到三台时间同步的问题
- python环境：三台也都必须安装

2.2 数据库迁移

2.2.1 数据库迁移需求

业务数据：运行在部分服务器上
推荐系统：运行在另外的服务器上
- 导入过来，增量更新，通过Sqoop导入数据到
- hadoop的hive数据仓库
- 同步一份数据在集群中方便进行数据分析操作
用户资料信息两张表：user_profile，user_basic
文章内容基本信息、频道三张表：news_article_basic，news_article_content，news_channel

2.2.2.2 Sqoop 迁移

业务数据导入问题

新增的用户、文章
修改的用户信息、文章信息

两种导入形式，我们选择增量，定期导入新数据

1、sqoop全量导入HIVE
2、sqoop增量导入

append：指定整数列，从某一位开始导入
lastmodified：指定时间列，从表中的某个时刻开始导入

可以通过导入的目的地址有两种
1、直接导入数据到Hive表中
2、导入数据到HDFS中

注意：

增量备份lastmodified模式不支持直接导入Hive表（但是可以使用导入HDFS的方法，将–target-dir设置成Hive table在HDFS中的关联位置即可）

2.2.2.3 Sqoop 迁移案例

sqoop 导出的 hdfs 分片数据，都是使用逗号 , 分割

于 hive 默认的分隔符是 /u0001（Ctrl+A）

Mysql导入对应hive类型:

MySQL(bigint) --> Hive(bigint) 
MySQL(tinyint) --> Hive(boolean) 
MySQL(int) --> Hive(int) 
MySQL(double) --> Hive(double) 
MySQL(bit) --> Hive(boolean) 
MySQL(varchar) --> Hive(string) 
MySQL(decimal) --> Hive(double) 
MySQL(date/timestamp) --> Hive(string)

注意：

1、连接JDBC的IP 地址或者主机名是否错误
2、确认mysql数据库打开并且能够sqoop测试成功
3、文章表导入news_article_basic，news_article_content、news_channel

sqoop迁移一些有特殊字符的数据导入hadoop
- 加入—query参数，从数据库中选中对应字段，过滤相应内容，使用REPLACE、CHAR(或者CHR)进行替换字符
HIVE读取存在问题
- HIVE默认分割符，**"\t", “\n”**这些特殊字符出不了

    --query
    select article_id, user_id, channel_id, REPLACE(REPLACE(REPLACE(title, CHAR(13), ''), CHAR(10), ''), ',', ' ') title, status, update_time from news_article_basic limit 1;
    +------------+---------+------------+-----------------------------+--------+---------------------+
    | article_id | user_id | channel_id | title                       | status | update_time         |
    +------------+---------+------------+-----------------------------+--------+---------------------+
    |          1 |       1 |         17 | Vue props用法小结原荐       |      2 | 2019-02-18 11:08:16 |
    +------------+---------+------------+-----------------------------+--------+---------------------+

并且mysql表中存在tinyibt,必须在connet中加入:

?tinyInt1isBit=false

防止默认到HIVE中,字段默认会被转化为boolean数据类型

4、news_channel与用户两张表一起导入

5、news_article_content

全量导入(不需要在HIVE中创建，因为是直接导入HIVE，会自动创建news_article_content)

全量导入脚本例子：

sqoop import \
    --connect jdbc:mysql://192.168.19.137/toutiao \
    --username root \
    --password password \
    --table news_article_content \
    --m 4 \
    --hive-home /root/bigdata/hive \               # Hive根目录 
    --hive-import \
    --hive-drop-import-delims \                    # 导入到hive时删除 \n, \r, and \01 
    --hive-table toutiao.news_article_content \
    --hive-overwrite

增量导入脚本例子：

增量备份lastmodified模式不支持直接导入Hive表（但是可以使用导入HDFS的方法，只不过--target-dir设置成Hive table在HDFS中的关联位置即可）
sqoop import --connect jdbc:mysql://11.25.57.18:3306/usercenter_test \
	--username root --password 123456 --table useradmin \
	--target-dir /user/hive/warehouse/test.db/useradmin \
	--null-string '\\N' \
	--null-non-string '\\N' \
	--split-by id \
	-m 1 \
	--fields-terminated-by '\t' \
	--hive-drop-import-delims \
	--incremental lastmodified \
	--check-column CreateTime \
	--last-value '2019-06-04 14:29:01' \
	--append

2.2.3 crontab-shell脚本定时运行

创建一个定时运行的脚本
- crontab -e
写入定时执行的命令：
- */30 * * * * /root/toutiao_project/scripts/import_incremental.sh
启动服务
- service crond start/stop

2.2.3 总结

sqoop导入业务数据到hadoop操作
- append, lastmodified
增量导入形式

2.3 用户行为收集到HIVE

2.3.1 为什么要收集用户点击行为日志

便于了解分析用户的行为、喜好变化
为用户建立画像提供依据

2.3.2 用户日志如何收集

2.3.2.1 埋点开发测试流程

埋点参数:
- 就是在应用中特定的流程收集一些信息，用来跟踪应用使用的状况，后续用来进一步优化产品或是提供运营的数据支撑

1、PM（项目经理）、算法推荐工程师一起指定埋点需求文档

2、后端、客户端 APP集成

3、推荐人员基于文档埋点测试与梳理

2.3.2.2 黑马头条文章推荐埋点需求整理

埋点事件号:
- 停留时间
  - read
- 点击事件
  - click
- 曝光事件(相当于刷新一次请求推荐新文章)
  - exposure
- 收藏事件
  - collect
- 分享事件
  - share
埋点参数文件结构
- 曝光的参数：下拉刷新，推荐新的若干篇文章
- 我们将埋点参数设计成一个固定格式的json字符串

2.3.3 离线部分-用户日志收集

通过flume将业务数据服务器A的日志收集到hadoop服务器hdfs的hive中

创建HIVE对应日志收集表
- HIVE数据库的设置，分区？
- 手动关联分区的hadoop的目录
- 收集到新的数据库中

    a1.sources.s1.interceptors.i1.regex=\\{.*\\}

flume收集日志配置

sink:
开启收集命令

2.3.3 Supervisor进程管理

很方便的监听、启动、停止、重启一个或多个进程

使用
- 1、配置 supervisor开启配置文件在哪里
  - /etc/supervisor/
- 2、配置.conf ，reco.conf
- 3、写入配置格式
- 4、开启supervisor, 启动
  supervisord -c /etc/supervisord.conf
- 5、supervisorctl管理进程

2.3.4 supervisor 启动监听flume收集日志程序

1、添加配置

[program:collect-click]
command=/bin/bash /root/toutiao_project/scripts/collect_click.sh
user=root
autorestart=true
redirect_stderr=true
stdout_logfile=/root/logs/collect.log
loglevel=info
stopsignal=KILL
stopasgroup=true
killasgroup=true

2、update更新我们要监控管理的程序

2.3.6 总结

用户行为日志收集的相关工作流程
flume收集到hive配置
supervisor进程管理工具使用

2.1 离线画像业务介绍

文章内容标签化：内容标签化，根据内容定性的制定一系列标签，这些标签可以是描述性标签。针对于文章就是文章相关的内容词语。

文章：频道ID内容，关键词、主题词

用户画像：研究用户对内容的喜好程度

2.4 离线文章画像计算

离线文章画像组成需求

文章画像，就是给每篇文章定义一些词。
关键词：文章中一些词的权重（TFIDF与texrank）高的。
主题词：是进行规范化处理的，文章中出现的同义词，计算结果出现次数高的词。
- 共性的词

1、原始文章表数据合并得到文章所有的词语句信息

文章标题+文章频道名称+文章内容组成文章完整内容

2.4.1 原始文章数据的合并

初始化spark信息配置，定义一个积基类

2.4.1.1 创建Spark初始化相关配置

合并三张表内容，到一张表当中，写入到HIVE中
- article数据库：存放文章计算结果
- article_data
建议初始化spark ， SparkSessionBase

jupyter notebook先把代码写好，测试好

2.4.1.2 进行合并计算

3、新建merge_data.ipynb文件

初始化spark信息
读取文章进行处理合并
- DF 进行注册一个表，temp合并文章频道名称

2.4.2 Tfidf计算

article_data

2.4.2.1 目的

计算出每篇文章的词语的TFIDF结果用于抽取画像

结果：计算得出N篇文章的TFIDF值，IDF索引结果合并得到词

最终表：

hive> select * from tfidf_keywords_values where article_id=3;
OK
3       17      var     22.4813
3       17      &#      41.1171
3       17      对象    14.0423
3       17      节点    56.4314
3       17      中文    7.0541
3       17      stringify       22.5552

2、所有历史文章Tfidf计算

2.4.2.2TFIDF模型的训练步骤

读取N篇文章数据
文章数据进行分词处理,得到分词结果
- 分词用的词库，三台都需要上传
先计算分词之后的每篇文章的词频，得到CV模型
然后根据词频计算IDF以及词，得到IDF模型
- 训练idf模型，保存
- cv * log(C1出现文章次数/总文章数量)
- 不同词列表，所有的词的IDF的值
利用模型计算N篇文章数据的TFIDF值
- tfidf_keywords_values：结果结果
  - 用到idf_keywords_values这个表: 词以索引的对应关系
- 对于每篇文章的每个词的权重做排序筛选

3、所有历史文章TextRank计算

定义:通过词之间的相邻关系构建网络，然后用PageRank迭代计算每个节点的rank值，排序rank值即可得到关键词
- 词之间的相邻关系构建网络
- PageRank迭代计算每个节点的rank值(每个词，网页
- 利用图模型来提取文章中的关键词

举例:10篇文章

1、分词过滤
2、图建立，K窗口
3、计算权重排序

程序员=1.9249977,
人员=1.6290349,
分为=1.4027836,
程序=1.4025855,
高级=0.9747374,
软件=0.93525416,
中国=0.93414587,
特别=0.93352026,
维护=0.9321688,
专业=0.9321688,
系统=0.885048,
编码=0.82671607,
界限=0.82206935,
开发=0.82074183,
分析员=0.77101076,
项目=0.77101076,
英文=0.7098714,
设计=0.6992446,
经理=0.64640945

关键词评分：权重

2.4.3.1 文章的TextRank计算

jieba.analyse.TextRank
- textrank_model
  - textrank_model = TextRank(window=5, word_min_len=2)

textrank_keywords_values
tfidf_keywords_values

Gwynbleidddd

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
5
评论
头条NLP推荐系统项目（1）——项目架构与数据导入

11.1 黑马头条推荐业务架构介绍1.1.1业务在头条APP海量用户与海量文章之上，使用lambda大数据实时和离线计算整体架构，利用黑马头条用户在APP上的点击行为、浏览行为、收藏行为等建立用户与文章之间的画像关系，通过机器学习推荐算法进行智能推荐1.1.2 架构与业务流1、用户的行为收集，业务数据收集2、批量计算(离线计算)：用户文章画像3、用户的召回结果、排序精选过程4、grpc的实时推荐业务流的搭建缓存1.3 开发环境介绍1.3.1 虚拟机设备1.3.3 python
复制链接

扫一扫