Gwynbleidddd-CSDN博客

原创头条NLP推荐系统项目（1）——项目架构与数据导入

11.1 黑马头条推荐业务架构介绍1.1.1业务在头条APP海量用户与海量文章之上，使用lambda大数据实时和离线计算整体架构，利用黑马头条用户在APP上的点击行为、浏览行为、收藏行为等建立用户与文章之间的画像关系，通过机器学习推荐算法进行智能推荐1.1.2 架构与业务流1、用户的行为收集，业务数据收集2、批量计算(离线计算)：用户文章画像3、用户的召回结果、排序精选过程4、grpc的实时推荐业务流的搭建缓存1.3 开发环境介绍1.3.1 虚拟机设备1.3.3 python

2021-03-01 19:51:00 803 5

原创推荐系统项目基础（七）基于内容的推荐系统

这里写目录标题简介基于内容的推荐实现步骤画像构建用户画像物品画像简介基于内容的推荐比较直接，以物品的内容描述信息作为依据来进行推荐，本质上是基于物品和用户自身的特征进行分析和计算基于内容的推荐实现步骤画像构建用户画像物品画像...

2021-01-03 16:22:50 722

原创 NLP基础（一）Word2Vec

word2vec原理(一) CBOW与Skip-Gram模型基础NLP基础（一）Word2Vec词向量基础CBOWSkip-Gramword2vec基础之霍夫曼树词向量基础用词向量来表示词并不是word2vec的首创，在很久之前就出现了。最早的词向量是很冗长的，它使用是词向量维度大小为整个词汇表的大小，对于每个具体的词汇表中的词，将对应的位置置为1。比如我们有下面的5个词组成的词汇表，词"Queen"的序号为2，那么它的词向量就是(0,1,0,0,0)。同样的道理，词"Woman"的词向量就是(0,

2021-01-03 15:26:32 179

原创推荐系统项目基础（六）基于LFM的推荐系统

推荐系统项目基础（六）基于LFM的推荐系统从SVD到FunkSVD从SVD到FunkSVD传统的SVD矩阵分解将一个矩阵分解为三个矩阵，对于一些缺失值需要进行矩阵的填充，这会对原有的数据产生噪声。FunkSVD将矩阵分解为2个矩阵，分别为用户-隐含特征矩阵，与项目-隐含特征矩阵。Funk SVD也被成为最原始的LFM模型。$$$$...

2020-12-28 22:13:55 498

原创推荐系统项目基础（五）基于内容的推荐

推荐系统项目基础（五）基于内容的推荐基于内容的推荐算法基于内容的推荐与基于物品协同过滤基于内容的推荐算法所谓基于内容的推荐算法(Content-Based Recommendations)是基于标的物相关信息、用户相关信息及用户对标的物的操作行为来构建推荐算法模型，为用户提供推荐服务。这里的标的物相关信息可以是对标的物文字描述的metadata信息、标签、用户评论、人工标注的信息等。或者是本身内容的相关标签（例如通过tfidf，Word2vec的方式进行向量计算）。其核心是基于画像（特征）进行推送。

2020-12-22 15:19:41 328

原创推荐系统项目基础（四）推荐系统的冷启动

推荐系统项目基础（四）推荐系统的冷启动推荐系统的冷启动概念用户的冷启动物品的冷启动系统的冷启动推荐系统的冷启动概念本质是推荐系统依赖历史数据，没有历史数据没有办法预测用户偏好。用户的冷启动1、尽可能的收集用户特征，构建用户画像。例如注册信息，年龄，地域，性别等2、引导用户填写兴趣3、使用其他站点的行为数据4、新老用户的推荐策略的差异新用户在冷启动阶段更倾向于热门排行榜ee力度使用单独的特征和模型预估物品的冷启动1、给物品打标签2、利用物品的内容信息，投放给曾经喜欢过和它内容相

2020-12-22 10:46:59 124

原创推荐系统项目基础（三）基于模型的协同过滤

推荐系统项目基础（三）基于模型的协同过滤基于图的协同过滤算法基于矩阵分解的协同过滤算法Funk SVD计算funk SVD矩阵方式ALS交替最小二乘法梯度下降算法基于图的协同过滤算法基于相邻域的模型可以看做基于图的模型的简单形式将用户行为数据表示为二分图基于二分图为用户进行推荐根据两个顶点之间的路径树、路径长度和经过的顶点数来评价两个顶点的相关性。基于矩阵分解的协同过滤算法针对真正的生产环境中，经常会存在缺失的数据，无法给出默认值。也无法使用缺失的向量进行相乘计算，所以需要一种方法解决数据

2020-12-21 21:17:43 929

原创推荐系统项目基础（二）基于相似度的协同过滤

推荐系统项目基础（二）协同过滤协同过滤算法用户协同过滤User-based CF商品协同过滤Item-based CF计算相似度余弦相似度皮尔逊相似度Jarccard相似度基于Jarccard相似度计算例子协同过滤算法用户协同过滤User-based CF从上图可以看出User-based CF的计算过程为：维护一张用户之间的相似表计算每个用户之间的相似度得到最接近的用户得到所有接近用户的购买数据根据购买数据推荐没有购买过的物品商品协同过滤Item-based CF基于商品过滤的不

2020-12-21 16:06:54 630

原创推荐系统项目基础（一）推荐系统基本概念

经典的架构Lamda大数据处理框架Lambda 架构总共由三层系统组成：批处理层（Batch Layer），速度处理层（Speed Layer），以及用于响应查询的服务层（Serving Layer）。批处理层使用可处理大量数据的分布式处理系统预先计算结果。它通过处理所有的已有历史数据来实现数据的准确性。这意味着它是基于完整的数据集来重新计算的，能够修复任何错误，然后更新现有的数据视图。输出通常存储在只读数据库中，更新则完全取代现有的预先计算好的视图。速度处理层会实时处理新来的大数据。举例来说

2020-12-21 12:49:35 649 1

原创 Spark基础（五）SparkSteaming

从批处理到流处理批处理在批处理中，新到达的数据元素被收集到一个组中。整个组在未来的时间进行处理（作为批处理，因此称为“批处理”）。确切地说，何时处理每个组可以用多种方式来确定 - 例如，它可以基于预定的时间间隔（例如，每五分钟，处理任何新的数据已被收集）或在某些触发的条件下（例如，处理只要它包含五个数据元素或一旦它拥有超过1MB的数据）。流处理在流处理中，每一条新数据都会在到达时进行处理。与批处理不同，在下一批处理间隔之前不会等待，数据将作为单独的碎片进行处理，而不是一次处理批量。批处理和流处理

2020-12-06 00:29:25 821

原创 Spark基础（四）SparkSQL

Spark基础（四）SparkSQLSparkSQL简介RDD，DataFrame，DataSetDataframeDatasetDataFrame的创建DataSet的创建SparkSQL简介是Spark中针对处理结构化数据的模块。与hive类似。通过sql语句方式对结构化数据进行分析。RDD，DataFrame，DataSetDataFrame，DataSet是操作sparkSql的抽象SparkCore的数据抽象是RDD的格式。SparkSQL的抽象是dataframe，dataset。

2020-12-05 11:35:09 480

原创 Spark基础（三）Spark中的任务执行

Spark基础（三）Spark中的任务执行Spark的任务调度Driver的工作容错机制Spark的架构特点Spark的任务调度Driver的工作1、JAR==》DAG根据客户端提交的jar包划分出来一个个的RDD，根据RDD之间的lineage关系划分DAG。划分DAG的目的是为了划分stage。2、DAG通过DAGScheller划分为stage===》再划分为taskSet根据划分出来的DAG，将DAG送个DAGScheduler，接收到DAG之后划分stage，根据stage划分tas

2020-12-04 21:57:56 212 1

原创 Spark基础（二）RDD简介

参考文章Spark学习之路（三）Spark之RDDSpark基础（二）RDD简介从MR到RDDRDD的简介RDD的属性RDD的弹性RDD的特点RDD的算子ActionTransformation从MR到RDD1、在MR的计算中，每次的map与reduce完成后都需要写入到磁盘中，所需的时间较长，增加了整体计算的时间。2、在Hive出现后直接的数据存储已经解决。可以方便的通过SQL进行数据的读取操作，但是计算本身依然依赖于MR。依然没有解决落盘所需时间较长的问题。3、Spark出现，支持将.

2020-12-03 21:20:11 85

原创 Spark基础（一）简介

Spark简介spark 一个通用的计算引擎，专门为大规模数据处理而设计，与 mapreduce 类似，不同的是，mapreduce 把中间结果写入 hdfs，而 spark 直接写入内存，这使得它能够实现实时计算。spark 由 scala 语言开发，他能够和 scala 完美结合，同时实现了 java、python、R 等接口。Spark搭建spark 有 3 种搭建模式local 模式：即单机模式，这种安装加压即可，具体安装方法穿插在 Standalone 模式Standalone 模

2020-12-02 16:18:54 167

原创 Hbase（三）过滤器

参考文章：HBase过滤器的使用HBase过滤器简介过滤器查询比较过滤器HBase中的过滤器类似于SQL中的Where条件。过滤器在客户端创建,然后通过RPC发送到服务器上,由服务器执行，执行流程如下图：使用过滤器至少需要两类参数，一类是抽象的操作符。HBase 提供了枚举类型的变量来表示这些抽象的操作符，含义如下：LESS 小于LESS_OR_EQUAL 小于等于EQUAL 等于NOT_EQUAL 不等于GREATER_OR_EQUAL 大于等于GREATER 大于NO_.

2020-11-11 18:56:28 136

原创 Hbase（二）架构与表模型

主从架构ZookeeperHMaster节点主节点：主要负责region的分配以及管理从节点。HMaster没有单点故障问题，可以启动多个HMaster，通过ZooKeeper的Master Election机制保证同时只有一个HMaster处于Active状态，其他的HMaster则处于热备份状态。一般情况下会启动两个HMaster，非Active的HMaster会定期的和Active HMaster通信以获取其最新状态，从而保证它是实时更新的，因而如果启动了多个HMaster反而增加了Activ

2020-11-10 19:38:27 134

原创 HBASE（一）简介

什么是Hbase大数据领域里面的一个NoSQL非关系型数据库。建立在HDFS上。主要用来结构化以及半结构化（类似于json或者xml结构的数据）的松散数据。Hbase特点面向列的：面向列族的存储和权限控制，列族独立检索。稀疏：对于为null的列，并不占用存储空间，因此表可以设置的十分稀疏。一个表可以非常大数据库以Region形式存在易于扩展，可以加节点就可以实现HBase扩展。支持客户端的高并发操作。Hbase与hadoop的关系Hbase与hadoop是一个紧耦合的关系，hbase

2020-11-10 19:38:00 89 1

原创 Hadoop（八）网站流量分析

Hadoop（八）网站流量分析网站流量的多维度分析网站流量指标pageview浏览量unique pageview浏览量网站流量整体架构模块网站流量的多维度分析通过统计用户的登录IP，浏览顺序，页面访问来源，访问媒介等方式来对页面浏览情况进行分析。可以通过流量转化漏斗的方式进行分析。网站流量指标pageview浏览量用户每打开一个页面，记录一个PVunique pageview浏览量一天之内，访问网站的不重复用户数。通过一个cookie来表示一个用户。网站流量整体架构模块流量采集架构模

2020-11-09 19:48:25 1432

原创 Hadoop（七）Sqoop

参考文章：Sqoop教程(一) Sqoop数据迁移工具Sqoop——vue5在线教程Sqoop简介Sqoop： “SQL到Hadoop和Hadoop到SQL”Sqoop是一种用于在Hadoop和关系数据库服务器之间传输数据的工具。它用于从MySQL，Oracle等关系数据库向Hadoop HDFS导入数据，并从Hadoop文件系统导出到关系数据库。Sqoop命令import数据导入import：从MySQL导入到HDFS文件系统数据–connect：数据库JDBC连接字符串jdbc:.

2020-11-09 12:41:11 86

原创 Flume（一）Flume框架

Flume（一）Flume框架Flume框架agentsourcechannelsinkFlume框架agentsourcechannelsink

2020-11-08 21:29:21 166

原创 Hive（三）Hive调优

Hive（四）Hive调优Fetch抓取本地模式Join小表Join大表（新版本中没有区别）多表关联大表join大表map端聚合Fetch抓取Hive中对于某些情况的查询可以不使用MapReduce计算。例如简单的select方法，Hive可以简单的读取对应的表并输出。通过设置hive-default.xml.template中的hive.fetch.task.conversion默认是more。设置属性为more后，全局查找，字段查找，limit查找都不走MapReduce。本地模式当存在很多

2020-11-08 19:42:57 53

原创 Hive（二）Hive中的表

参考文章：Hive(9) hive的分区表、外部分区表、分桶表Hive（三）Hive中的表数据都放到哪里了？数据仓库默认位置配置及库表关系内部表与外部表内部表外部表分库表与分桶表分库表分桶表数据都放到哪里了？既然Hive相当于一个连接数据与MR的接口，那数据都在哪里呢？答案是存放在HDFS中啦。我们创建的，读取的数据都是从HDFS中来的。查看我们所有数据所在的位置：通过登录mysql中存储的元数据进行查看。从上图可以看到我们之前创建的数据实际存储在下面的HDFS的URL之中。hdfs.

2020-11-08 17:38:00 1098

原创 Hive（一）Hive基本概念

Hive（二）Hive基本概念Hive概念Hive中的数据来源Hive中的元数据信息为什么要HiveHive的架构Hive概念Hive是一个数据仓库的处理工具，专门用于仓库的数据分析。Hive是基于hadoop上的一个数据仓库工具，将结构化的数据，映射成为一张表，并且提偶给你类似于sql的查询功能。Hive的本质是将SQL语句转换为MapReduce的任务进行执行。底层由HDFS来提供数据的存储支持，说白了hive可以理解为一个将SQL转换为MapReduce任务的工具，甚至更进一步可以说hive就是

2020-11-08 16:01:52 433

原创数据仓库（一）概念

Hive（一）数据仓库数据仓库的诞生数据仓库的诞生

2020-11-08 12:29:14 184

原创 Hadoop（六）MapTask与ReduceTask

Hadoop（五）MapTask与ReduceTaskMapTask阶段Map分区partitioner排序sort规约ConbinerReduceTask阶段Copy阶段Merge阶段reduceMapTask阶段Map读取数据文件，创建MapTask，进行Map计算。分区partitioner创建分区，将相同的key值，进行map阶段的内部reduce。将相同key值的数据发送到同一个reduce中去。分区的数量和reduceTask的数量相关。分区数量≤reduceTask数量排序sor

2020-11-03 14:50:40 243

原创 Hadoop（五）MapReduce与Yarn

什么是MapReduceMapReduce的核心思想为分治。将一个大的问题，分解为很多个小问题，将小问题进行并行计算。MapReduce过程Map阶段1、将文件进行切片，分片后的文件分别进行map计算，转换为key value值集合例如文件中有词：abc abd abc ab转换成 <abc,1>，<abc,1>，<ab,1>，<abd,1>2、接收key，value集合，自定义自己的map逻辑。然后转换成新的key2，value2集合进

2020-11-02 11:13:14 385 1

原创 Hadoop（四）HDFS

什么是HDFSHadoop Distributed File System hadoop底层的分布式文件存储系统，可以存储海量的数据。其特点为：作为一个文件系统，用于存储文件，通过统一的命名空间目录树来定位文件。分布式存储系统，通过许多服务器联合起来实现功能。master/slave架构，主从架构。其中namenode用于存储元数据，处理用户请求。datanode用户存储数据。分块存储，将一个大文件化成一个个小文件进行存储。一个文件块默认为128M大小。（hadoop 2.x）对外提供统一的文

2020-11-01 16:30:34 126

原创 Hadoop（三）架构

总体架构：

2020-10-30 19:19:16 113

原创 Hadoop（二）Zookeeper

定义分布式服务协调框架，本质上是一个分布式小文件存储系统。架构主从架构leader作用：维护数据一致性，处理用户的读写请求。follower作用：负责用户的读数据请求。维护数据的一致性。observer特性全局数据一致性。每个server保存一份相同的数据副本，client无论连接到哪个server，展示的数据都是一致的。可靠性如果消息被一台服务器接受那将被所有服务器接受。在主控节点向主控节点发送请求后，主控节点向被控节点发送写请求。最终所有节点上的数据一致。顺序性请求的顺序性：

2020-10-29 15:41:32 67

原创 Hadoop（一）环境部署

单机伪集群部署环境：Ubuntu18.04虚拟机Hadoop3.2.1JDK81、下载清华镜像部署安装3.2.1版本mkdir /var/lib/hadoopcd /var/lib/hadoopwget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gztar -zvxf hadoop-3.1.2.tar.gz2、添加用户组#添加hadoop用户s

2020-10-27 22:25:50 242

原创深度学习基础（十二）机器学习常用框架

PytorchTensorFlow

2020-10-26 19:23:45 143

原创深度学习基础（十一）其他网络类型

参考文章【模型解读】siamese network和triplet network原理与应用“Triplet network”三元组网络阅读笔记强化学习（一）模型基础强化学习（二）马尔科夫决策过程(MDP)强化学习（Reinforcement Learning）入门深度学习基础（十一）其他网络类型孪生网络 Siamese NetworkTriplet Network强化学习马尔科夫决策过程 Markov Decision Process基于价值的强化学习（value-based）基于策略的强.

2020-10-25 20:44:53 440

原创深度学习基础（十）迁移学习

迁移学习什么是迁移学习层迁移Layer Transfer语音识别替换后几层（）图像识别替换前几层（卷积层）原始（数据集）有标签，目标有标签1、Fine-tune2、Multitask Learning原始（数据集）有标签，目标无标签1、域对抗 Doman-adversarial training参考GAN模式，引入domain分类器（类似于判别器）通过判别器对所有的样本进行判别，判定是否属于同一类，通过反向传播对原有的神经网络进行改进。**使得最后的domain classifier

2020-10-25 12:58:17 359

原创深度学习基础（九）GAN生成对抗网络

参考文章：自动编码器：各种各样的自动编码器变分自动编码器基础生成对抗网络GAN自动编码器自动编码器最开始是作为一种数据压缩方法，同时还可以在卷积网络中进行逐层预训练，但是随后更多结构复杂的网络，比如 resnet 的出现使得我们能够训练任意深度的网络，自动编码器就不再使用在这个方面，下面我们讲一讲自动编码器的一个新的应用，这是随着生成对抗模型而出现的，就是使用自动编码器生成数据。由上面的图片，我们能够看到，第一部分是编码器(encoder)，第二部分是解码器(decoder)，编码器和解码.

2020-10-23 21:30:16 547

原创深度学习基础（八）递归网络卷积网络结合 CNN＋RNN

RNN+CNN两种网络的相同点都是传统神经网络的拓展前向计算产生结果，反向传递模型更新每层神经网络可以多个神经元共存，纵向可以由多层连接两种网络的不同点RNN为时间拓展，CNN为空间拓展RNN用于时间上的连续状态输出，有记忆功能，CNN只能静态输出。高级CNN100+深度，RNN深度有限组合的意义大量信息同时存在空间特征：视频，图文相结合。RNN+CNN应用图片标注图片标注升级——详细标注densecap，使用目标探测+识别+标注的loss进行训练。使用这种方式可以捕捉

2020-10-21 18:54:23 412

原创深度学习基础（七）递归神经网络基础

参考文章：深度学习之RNN(循环神经网络)深度学习入门：一句话告诉你什么是神经网络（CNN,RNN,DNN循环神经网络（RNN）为什么能够记忆历史信息零基础入门深度学习 | 第六章：长短时记忆网络(LSTM)深度学习基础（七）递归神经网络基础RNN递归神经网络结构RNN中的正向传播RNN中的反向传播RNN的增强版——LSTMLSTM的工作原理RNN递归神经网络结构全连接的普通神经网路还存在着另一个问题——无法对时间序列上的变化进行建模。然而，样本出现的时间顺序对于自然语言处理、语音识别、.

2020-10-20 21:17:11 498

原创深度学习基础（六）卷积神经网络——目标检测

深度学习基础（六）卷积神经网络——目标检测目标检测介绍传统方法——DPM神经网络分类——RCNN神经网络回归——YoLo目标检测介绍目标检测：利用蛇精网络进行目标识别，同样的目标变为坐标值传统方法——DPM神经网络分类——RCNN神经网络回归——YoLo...

2020-10-19 21:24:04 4016

原创深度学习基础（五）卷积神经网络——目标分类

目标分类基本框架数据准备数据的扩充：可以使图片更模糊，清楚或者动作模糊。或者进行旋转平移这种变化。模型设计任务类型：分类：表情分类，属于什么种类，人群分类分类+回归：表情+程度，种类+信心，什么人+人数多目标分类：面部行为，群体行为，车流预测训练细节迁移学习如何设计神经网络...

2020-10-15 13:03:55 295

原创深度学习基础（四）卷积神经网络——经典CNN网络

参考文章：经典CNN结构简析GoogLeNet的心路历程（二）【深度学习】论文导读：GoogLeNet模型，Inception结构网络简化（Going deeper with convolutions）深度学习基础（四）卷积神经网络——经典CNN网络AlexNet——卷积神经网络的起源VGG——AlexNet增强版NIN——取消全连接层GoogLeNet——稀疏化的网络结构ResNet——DeepFaceU-NetAlexNet——卷积神经网络的起源深层神经网络的雏形，2012年的冠军网络.

2020-10-13 22:11:00 428

原创深度学习基础（三）卷积神经网络

深度学习基础（三）卷积神经网络卷积神经网络的基本结构卷积层卷积层中卷积核的属性是如何确定的？CNN中的反向传播功能层卷积神经网络Minist分类卷积神经网络的基本结构一般的卷积神经网络由几个部分组成输入层隐藏层（卷积层与）全连接层激活层（激活函数）输出层卷积层由多个卷积核组合形成，每个卷积核同数据数据卷积组合形成新的特征图。卷积核：1、同输入数据进行计算的二维算子2、大小由用户定义。3、卷积核的矩阵值：卷积神经网络的参数。4、卷积核初值随机生成，通过反向传播进行更新。

2020-10-12 18:38:57 503

空空如也

空空如也