推荐系统
文章平均质量分 92
卓玛cug
这个作者很懒,什么都没留下…
展开
-
文章排序-pyspark wide_deep模型及基于TF Serving的模型服务部署(五)
一、wide_deep模型Wide部分的输入特征:离散特征离散特征之间做组合不输入有连续值特征的,至少在W&D的paper里面是这样使用的。Deep部分的输入特征:raw input+embeding处理对非连续值之外的特征做embedding处理,这里都是策略特征,就是乘以个embedding-matrix。在注:训练:notice: Wide部分用FTRL来训...原创 2020-03-30 16:07:38 · 628 阅读 · 0 评论 -
文章排序-pyspark FTRL模型(四)
构建TFRecords文件TFRecords其实是一种二进制文件,虽然它不如其他格式好理解,但是它能更好的利用内存,更方便复制和移动,并且不需要单独的标签文件。import tensorflow as tfimport pandas as pdfrom pyspark.sql import SparkSessionspark = SparkSession \ .builder ...原创 2020-03-30 15:53:57 · 707 阅读 · 0 评论 -
文章排序-pyspark LR模型(三)
最基础的模型目前都是基于LR的点击率预估策略,目前在工业使用模型做预估的有这么几种类型宽模型 + 特征⼯程LR/MLR + 非ID类特征(⼈⼯离散/GBDT/FM)宽模型 + 深模型wide&deep,DeepFM使用TensorFlow进行训练深模型:DNN + 特征embedding使用TensorFlow进行训练一、构造训练集,用户和文章特征作为训练集特...原创 2020-03-30 15:28:47 · 1012 阅读 · 0 评论 -
pyspark 文章画像和用户画像(二)
文章特征文章特征包括:文章关键词权重、文章频道、文章向量其中文章关键词和文章向量的求取可参考https://blog.csdn.net/qq_29153321/article/details/104680282一、获取文章频道、k个关键词权重# 文章关键词数据:article_id,channel_id,keywords,topicsarticle_profile = spark.sp...原创 2020-03-30 15:13:14 · 539 阅读 · 0 评论 -
文本向量化表示
1、One-hot编码0、1表示缺点是矩阵稀疏,维数高和不能保留语义2、词袋(BOW)模型统计各词在文本中出现次数缺点是不能保留语义,维数高和稀疏性3、TF-IDF词频*逆词频缺点是不能保留语义4、N-Gram考虑了词的顺序N=1时称为unigram,N=2称为bigram,N=3称为trigram缺点是随着N的增大,词表迅速膨胀,数据出CBOW现大量稀疏的问题。5、Wo...原创 2020-03-30 14:39:55 · 678 阅读 · 0 评论 -
关键词提取算法总结
一、TF-IDFtf-idf = tf(词频)*idf(逆词频)其中tf(词频)为该词在该文档中出现的次数/该文档总次数,idf(逆词频) = log(N/1+N(x)),N为总文档数,N(x)为文档中出现该词的文档数。二、TextrankTextRank思想非常简单:通过词之间的相邻关系构建网络,然后用PageRank迭代计算每个节点的rank值,排序rank值即可得到关键词。Tex...原创 2020-03-29 23:28:46 · 1246 阅读 · 1 评论 -
pyspark 相似文章推荐-Word2Vec+Tfidf+LSH(一)
本文目的最近在研究LSH方法,主要发现用pyspark实现的较少,故结合黑马头条推荐系统实践的视频进行了本地实现。本项目完整源码地址:https://github.com/angeliababy/text_LSH项目博客地址:https://blog.csdn.net/qq_29153321/article/details/104680282算法本章主要介绍如何使用文章关键词获取文章...原创 2020-03-05 21:32:30 · 3504 阅读 · 2 评论 -
中、柬文性别预测实践
方法一:调用包,只适合中文#!/usr/bin/env python# -*- coding:utf-8 -*-import ngendernames = ['阿宝','阿彪','阿城','阿丑','阿达']for name in names: import re lang_re = re.compile(r'[^\u4e00-\u9FBF]', re.S)...原创 2020-02-24 17:16:01 · 208 阅读 · 0 评论 -
Wide&Deep原理及实践
背景根据推荐系统使用数据的不同,推荐算法可分为基于用户行为推荐、基于内容推荐等。主流的推荐系统算法可以分为协同过滤推荐(Collaborative Filtering Recommendation)、基于内容推荐(Content-basedRecommendation)和混合推荐三种。混合推荐一般有UserCF、ItemCF、热度推荐、时效推荐、历史阅读推荐、用户爱好推荐等方法。推荐排序方法一...原创 2020-01-19 16:12:30 · 756 阅读 · 0 评论 -
摘要提取实践-基于依存句法和语义角色标注的三元组抽取
本篇文章主要介绍摘要提取的方法。本项目完整源码地址:链接: https://pan.baidu.com/s/1yymEHofUoFzjbN_mdThsKw 提取码: yd3z项目博客地址:https://blog.csdn.net/qq_29153321/article/details/104037335一、背景介绍目前自动摘要(Automatic Summarization)的方法主...原创 2020-01-19 14:26:12 · 5111 阅读 · 2 评论 -
情感分析/文本分类模型的几种方法介绍及比较
文本分类模型一、fastTexthttps://fasttext.cc/docs/en/unsupervised-tutorial.htmlfastText模型架构:其中x1,x2,…,xN−1,xN表示一个文本中的n-gram向量,每个特征是词向量的平均值。这和前文中提到的cbow相似,cbow用上下文去预测中心词,而此处用全部的n-gram去预测指定类别代码如下,只能在linux环...原创 2020-01-17 17:47:38 · 3863 阅读 · 0 评论 -
中文分词模型算法调研
1. 原理-分词算法1.1. 基于词典的分词1、最大匹配分词算法:寻找最优组合的方式是将匹配到的最长词组合在一起。其缺点是严重依赖词典,无法很好地处理分词歧义和未登录词。优点是由于这种方法简单、速度快、且分词效果基本可以满足需求,因此在工业界仍然很受欢迎。2、最短路径分词算法:将一句话中的所有词匹配出来,之后寻找从起始点到终点的最短路径作为最佳组合方式基于Dijkstra算法求解最短路径、...原创 2020-01-17 17:11:14 · 1638 阅读 · 0 评论 -
中文命名体识别的几种方法介绍及比较
本文目的最近在研究命名体识别的多种方法,主要是为了让一些像我这样的人少走些弯路,直接找到最实用的方法,对下面几种最常用的方法进行了实践.本项目完整源码地址:链接: https://pan.baidu.com/s/1UO9SSKON9rQm97eNv-l9pg 提取码: djvv项目博客地址:https://blog.csdn.net/qq_29153321/article/details...原创 2020-01-17 15:21:14 · 1102 阅读 · 0 评论 -
柬文分词的效果评估
柬文分词的效果评估目前本公司项目上使用的柬文分词为NIPTICT机构调用CRF++算法工具进行的分词,由于目前的分词效果一般,故对多种柬文分词算法进行了研究评估。一、柬文分词算法介绍下面为各种算法的标识做简要介绍。网上已有的模型: NIPTICT:https://niptict.edu.kh/khmer-word-segmentation-tool/柬文常用分词,本项目使用的分词,...原创 2020-01-17 15:05:24 · 378 阅读 · 0 评论 -
文本特征处理及文本聚类的几种方法
文本特征处理及聚类的几种方法本项目完整源码地址:https://github.com/angeliababy/textcluster项目博客地址:https://blog.csdn.net/qq_29153321/article/details/104015257数据准备测试数据说明data_offline文件夹包含200 economy 类,200个sports类,200个envir...原创 2020-01-17 10:33:45 · 5478 阅读 · 19 评论 -
文章召回-基于ALS的协同过滤算法实践及评估
基于ALS的协同过滤算法本项目完整源码地址:https://github.com/angeliababy/ALS_col项目博客地址: https://blog.csdn.net/qq_29153321/article/details/104007318原理ALS算法属于User-Item CF,也叫做混合CF。它同时考虑了User和Item两个方面。用户和商品的关系,可以抽象为如下的三...原创 2020-01-16 17:24:59 · 974 阅读 · 0 评论