自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)

原创 推荐系统学习笔记-Part3矩阵分解

隐语义模型与矩阵分解协同过滤算法的特点就是完全没有利用到物品本身或者是用户自身的属性, 仅仅利用了用户与物品的交互信息就可以实现 推荐,是一个可解释性很强, 非常直观的模型, 但是也存在一些问题。第一个就是处理稀疏矩阵的能力比较弱, 所以为 了使得协同过滤更好处理稀疏矩阵问题,增强泛化能力, 从协同过滤中衍生出矩阵分解模型(Matrix Factorization,MF)或 者叫隐语义模型, 两者差不多说的一个意思, 就是在协同过滤共现矩阵的基础上, 使用更稠密的隐向量表示用户和物品, 挖掘用户和物品

2020-10-25 23:45:07 2

原创 推荐系统学习笔记-Part2协同过滤

推荐系统-协同过滤协同过滤(Collaborative Filtering)推荐算法是最经典、最常用的推荐算法。+所谓协同过滤, 基本思想是根据用户之前的喜好以及其他兴趣相近的用户的选择来给用户推荐物品(基于对用户历史行为数据的挖掘发现用户的喜好偏向, 并预测用户可能喜好的产品进行推荐),一般是仅仅基于用户的行为数据(评价、购买、下载等), 而不依赖于项的任何附加信息(物品自身特征)或者用户的任何附加信息(年龄, 性别等)。目前应用比较广泛的协同过滤算法是基于邻域的方法, 而这种方法主要有下面两种算法:

2020-10-22 23:05:17 8

原创 Hive学习笔记整理概括

Hive以下是笔者对Hive的一些认知以及笔记什么是Hive1.Hive是基于Hadoop的一个数据仓库工具;2.Hive提供Hql(Hive sql)查询功能;3.数据是存储在HDFS上,Hive本身不存储数据,构建表的逻辑存在知道数据库上(mysql);4.Hive的本质是将SQL语句转换为MapReduce任务执行;5.离线大数据计算。HQL与SQL~HQLSQL数据存储HDFS、HbaseLocalFS(本地FileSystem)数据格式用户自定义

2020-10-21 10:14:24 5 2

原创 推荐系统学习笔记-Part1

推荐系统简介推荐系统是利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售 人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信 息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到 自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。 为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级 商务智能平台,以帮助电子商务

2020-10-19 17:01:14 38 1

原创 零基础入门NLP - 天池新闻文本分类Task6笔记

零基础入门NLP - 天池新闻文本分类以下以Datawhale与天池举办的新闻文本分类这个NLP赛题做的NLP入门Task2笔记赛题链接:https://tianchi.aliyun.com/competition/entrance/531810/introduction.Task5:基于深度学习的文本分类本章将继续介绍基于深度学习的文本分类了解Transformer的原理和基于预训练语言模型(Bert)的词表示学会Bert的使用,具体包括pretrain和finetune文本表示方法Tra

2020-08-04 23:54:45 589

原创 零基础入门NLP - 天池新闻文本分类Task5笔记

零基础入门NLP - 天池新闻文本分类以下以Datawhale与天池举办的新闻文本分类这个NLP赛题做的NLP入门Task2笔记赛题链接:https://tianchi.aliyun.com/competition/entrance/531810/introduction.Task3:基于深度学习的文本分类本章将介绍基于深度学习的文本分类文本表示方法词向量word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,我们选取一个上下文窗口和一个中心词,并基于这个中心

2020-07-31 23:52:31 50

原创 零基础入门NLP - 天池新闻文本分类Task4笔记

零基础入门NLP - 天池新闻文本分类以下以Datawhale与天池举办的新闻文本分类这个NLP赛题做的NLP入门Task2笔记赛题链接:https://tianchi.aliyun.com/competition/entrance/531810/introduction.Task4:基于深度学习的文本分类1-fastText与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。文本表示方法Part2在上一章节,我们介绍几种文本

2020-07-27 23:48:22 38

原创 零基础入门NLP - 天池新闻文本分类Task3笔记

零基础入门NLP - 天池新闻文本分类以下以Datawhale与天池举办的新闻文本分类这个NLP赛题做的NLP入门Task2笔记赛题链接:https://tianchi.aliyun.com/competition/entrance/531810/introduction.Task3:基于机器学习的文本分类本章将介绍使用机器学习模型来解决文本分类问题文本表示方法在自然语言领域,文本是不定长度的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入(Word Embedding)方法。词嵌入将

2020-07-25 23:38:45 28

原创 零基础入门NLP - 天池新闻文本分类Task2笔记

零基础入门NLP - 天池新闻文本分类以下以Datawhale与天池举办的新闻文本分类这个NLP赛题做的NLP入门Task2笔记赛题链接:https://tianchi.aliyun.com/competition/entrance/531810/introduction.Task2:数据读取与数据分析主要内容为数据读取和数据分析,具体使用Pandas库完成数据读取操作,并对赛题数据进行分析构成。数据读取赛题数据使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。import

2020-07-22 20:59:34 46

原创 零基础入门NLP - 天池新闻文本分类Task1笔记

零基础入门NLP - 天池新闻文本分类以下以Datawhale与天池举办的新闻文本分类这个NLP赛题做的NLP入门Task1笔记赛题链接:https://tianchi.aliyun.com/competition/entrance/531810/introduction.Task1:赛题理解赛题理解1.赛题名称:零基础入门NLP之新闻文本分类。2.赛题目标:通过赛题引导并走入自然语言处理,解除NLP的预处理、模型构建和模型训练等知识点。3.赛题任务:赛题以自然语言处理为背景,要求选手对新闻文

2020-07-21 22:08:34 34

原创 二手车价格预测Task5笔记

零基础入门数据挖掘比赛(天池二手车交易价格预测)以下以Datawhale与天池举办的二手车交易价格预测这个数据挖掘赛题做的数据挖掘入门Task5笔记Task5:模型融合在比赛的攻坚时刻,各种模型结果的融合方式,有利于冲刺Top模型融合目标对于多种调参完成的模型进行模型融合;完成对于多种模型的融合,提交融合结果;模型融合具体类型方式简单加权融合 ;1.回归(分类概率):算术平均...

2020-04-04 21:47:02 43

原创 二手车价格预测Task4笔记

零基础入门数据挖掘比赛(天池二手车交易价格预测)以下以Datawhale与天池举办的二手车交易价格预测这个数据挖掘赛题做的数据挖掘入门Task4笔记Task4:建模与调参线性回归模型线性回归对于特征的要求 ;处理长尾分布;# 先做完小技巧sample_feature = sample_feature.dropna().replace('-', 0).reset_index(dro...

2020-04-01 21:42:02 57

原创 二手车价格预测Task3笔记

零基础入门数据挖掘比赛(天池二手车交易价格预测)以下以Datawhale与天池举办的二手车交易价格预测这个数据挖掘赛题做的数据挖掘入门笔记Task1:赛题理解赛题概况通常做比赛,首先得了解赛题:赛题类型分类、回归、 其它 ;赛题背景可能潜在隐藏的一些条件,对之后的数据处理很有帮助。例如是否包含异常值、数据的缺失、数据的漂移等 ;数据理解了解赛题提供的数据特征情况以及含义,有助...

2020-03-24 19:21:12 38

空空如也

空空如也

空空如也
提示
确定要删除当前文章?
取消 删除