fffflyinthesky-CSDN博客

原创 GBDT+LR

GBDT&LR简介协同过滤和矩阵分解存在的劣势就是仅利用了用户与物品相互行为信息进行推荐，忽视了用户自身特征，物品自身特征以及上下文信息等，导致生成的结果往往会比较片面。而这次介绍的这个模型是2014年由Facebook提出的GBDT+LR模型，该模型利用GBDT自动进行特征筛选和组合，进而生成新的离散特征向量，再把该特征向量当做LR模型的输入，来产生最后的预测结果，该模型能够综合利用用户、物品和上下文等多种不同的特征，生成较为全面的推荐结果，在CTR点击率预估场景下使用较为广

2020-10-30 19:44:44 142

原创 Wide&Deep

点击率预估简介点击率预估是用来解决什么问题？点击率预估是对每次广告点击情况作出预测，可以输出点击或者不点击，也可以输出该次点击的概率，后者有时候也称为pClick.点击率预估模型需要做什么？通过上述点击率预估的基本概念，我们会发现其实点击率预估问题就是一个二分类的问题，在机器学习中可以使用逻辑回归作为模型的输出，其输出的就是一个概率值，我们可以将机器学习输出的这个概率值认为是某个用户点击某个广告的概率。点击率预估与推荐算法有什么不同？广告点击率预估是需要得到某个用户对某个广告的点击率，然后结合广

2020-10-27 19:25:57 132

原创矩阵分解算法

矩阵分解算法隐语义模型核心思想：通过隐含特征（latent factor）联系用户兴趣和物品（item），基于用户的行为找出潜在的主题和分类，然后对item进行自动聚类，划分到不同类别/主题(用户的兴趣)。对比：是把协同过滤算法进行了一种延伸，把用户的相似性和物品的相似性通过了一个叫做隐向量的方式进行表达如果我们知道了用户A和用户B两个用户在豆瓣的读书列表，从他们的阅读列表可以看出，用户A的兴趣涉及侦探小说、科普图书以及一些计算机技术书，而用户B的兴趣比较集中在数学和机器学习方面。那么

2020-10-25 23:20:34 3191

原创第二节协同过滤

协同过滤算法协同过滤（Collaborative Filtering）推荐算法是最经典、最常用的推荐算法。所谓协同过滤，基本思想是根据用户之前的喜好以及其他兴趣相近的用户的选择来给用户推荐物品(基于对用户历史行为数据的挖掘发现用户的喜好偏向，并预测用户可能喜好的产品进行推荐)，一般是仅仅基于用户的行为数据（评价、购买、下载等）, 而不依赖于项的任何附加信息（物品自身特征）或者用户的任何附加信息（年龄，性别等）。目前应用比较广泛的协同过滤算法是基于邻域的方法，而这种方法主要有下面两种算法：基于

2020-10-22 19:41:32 135

原创推荐系统简介

推荐系统简介简述推荐系统广泛应用于电子商务网站中，根据顾客的偏好推荐商品，推荐系统作为一种特殊的服务，推荐系统的使用也可以被视为一个消费过程，同样适用于进行用户满意度的测评。用户在使用一个推荐系统之前，由于先前的使用经验、其他用户对推荐系统的评价、对系统平台的信任、个人特征等因素的影响，用户会对该推荐系统产生一种期望，使用推荐系统帮助进行购物决策之后，用户对推荐系统的质量形成一个认知，对推荐系统的价值进行评价。推荐系统产生的背景随着互联网和电子商务规模的迅速增长，电商企业可以通过网络服务器为在线消费

2020-10-19 19:45:28 313

原创支持向量机

一、概述支持向量机（SVM，也称为支持向量网络），SVM在各种实际问题中都表现非常优秀。它在手写识别数字和人脸识别中应用广泛，在文本和超文本的分类中举足轻重，因为SVM可以大量减少标准归纳（standard inductive）和转换设置（transductivesettings）中对标记训练实例的需求。同时，SVM也被用来执行图像的分类，并用于图像分割系统。二、支持向量机分类器的工作原理支持向量机的分类方法，是在这组分布中找出一个超平面作为决策边界，使模型在数据上的分类误差尽量接近于小，尤其是

2020-08-26 20:42:36 115

原创机器学习算法——决策树

决策树决策树（Decision Tree）是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据中总结出决策规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。决策树算法容易理解，适用各种数据，在解决各种问题时都有良好表现，尤其是以树模型为核心的各种集成算法，在各个行业和领域都有广泛的应用。节点根节点：没有进边，有出边。包含最初的，针对特征的提问。中间节点：既有进边也有出边，进边只有一条，出边可以有很多条。都是针对特征的提问。叶子节点：有进边，没有出边，每个叶子节点都是一个类

2020-08-20 22:15:23 462

原创机器学习算法——逻辑回归

逻辑回归1. 逻辑回归概述逻辑回归是一种名为“回归”线性分类器，其本质是由线性回归变化而来的。假设现在有一些数据点，我们用一条直线对这些点进行拟合（该线称为最佳拟合直线），这个拟合过程就称为回归。利用Logistic回归进行分类的主要思想是：根据现有数据对分类边界线建立回归公式，以此进行分类。逻辑回归的本质只有线性回归变化而来的，线性回归的方程如下：z=ω0+ω1x1+ω2x2+…+ωnxn (ω0=1) z=\omega_{0}+\omega_{1} x_{1}+\omega_{2} x

2020-08-18 21:56:38 403

原创 pandas 与 excel(二) python对excel表格的合并与拆分

利用pandas合并excel文件一、多个xlsx文件合并xlsx文件可为单sheet或多sheet混合导入os, pandas库import osimport pandas as pd可采用函数的形式，将文件夹作为参数，不同情况下使用时，更改参数即可读取文件夹下所有文件，筛选出xlsx文件，将所有该格式文件汇总进列表做区分检验，利用read_excel读取所有xlsx文件为dataframe(默认第一个sheet，后面会介绍多sheet合并方法)，将所有dataframe存入列表，然

2020-07-30 17:54:23 1534

原创 python基础学习 Task04 元组

元组「元组」定义语法为：(元素1, 元素2, …, 元素n)小括号把所有元素绑在一起逗号将每个元素一一分开1. 创建和访问一个元组Python 的元组与列表类似，不同之处在于tuple被创建后就不能对其进行修改，类似字符串。元组使用小括号，列表使用方括号。元组与列表类似，也用整数来对它进行索引 (indexing) 和切片 (slicing)。tup1 = (1, 3, 5, 's')print(tup1, type(tup1))(1, 3, 5, 's') <class

2020-07-30 16:13:24 279

原创 python基础学习 Task04 列表

列表简单数据类型整型<class ‘int’>浮点型<class ‘float’>布尔型<class ‘bool’>容器数据类型列表<class ‘list’>元组<class ‘tuple’>字典<class ‘dict’>集合<class ‘set’>字符串<class ‘str’>|1. 列表的定义列表是有序集合，没有固定大小，能够保存任意数量任意类型的 Python 对象，

2020-07-29 22:43:32 128

原创 NLP学习 Task3 基于机器学习的文本分类

Task3 基于机器学习的文本分类在上一章节，我们对赛题的数据进行了读取，并在末尾给出了两个小作业。如果你顺利完成了作业，那么你基本上对Python也比较熟悉了。在本章我们将使用传统机器学习算法来完成新闻分类的过程，将会结束到赛题的核心知识点。基于机器学习的文本分类在本章我们将开始使用机器学习模型来解决文本分类。机器学习发展比较广，且包括多个分支，本章侧重使用传统机器学习，从下一章开始是基于深度学习的文本分类。学习目标学会TF-IDF的原理和使用使用sklearn的机器学习模型完成文本分类机

2020-07-26 23:33:31 128

原创 python基础学习 Task03 异常处理

Task03: 异常处理异常就是运行期检测到的错误。计算机语言针对可能出现的错误定义了异常类型，某种错误引发对应的异常时，异常处理程序将被启动，从而恢复程序的正常运行。1. Python 标准异常总结BaseException：所有异常的基类Exception：常规异常的基类StandardError：所有的内建标准异常的基类ArithmeticError：所有数值计算异常的基类FloatingPointError：浮点计算异常OverflowError：数值运算超出最大限制Zero

2020-07-25 23:14:57 118

原创 python基础学习 Task02 条件循环结构

Task02 条件循环结构条件语句1. if 语句if expression: expr_true_suiteif 语句的 expr_true_suite 代码块只有当条件表达式 expression 结果为真时才执行，否则将继续执行紧跟在该代码块后面的语句。单个 if 语句中的 expression 条件表达式可以通过布尔操作符 and，or和not 实现多重条件判断。【示例】a = 2b = 5c = 3 if a < b and not b < c:

2020-07-23 21:32:21 171

原创 NLP学习 Task02 数据读取与数据分析

Task02 数据读取与数据分析学习目标学习使用pandas读取赛题数据分析赛题数据的分布规律数据读取赛题数据为文本数据，但是使用csv格式存储，可用pandas进行数据读取import pandas as pdtrain_df = pd.read_csv(r"D:\python\NLP learn\datasets\train_set.csv",sep = "\t")pandas中的read_csv函数在这里选取三个参数赋值：读取的文件路径，这里需要根据改成你本地的路径，可以使

2020-07-22 22:58:12 153

原创 python基础学习 Task01 变量、运算符与数据类型

python基础学习 Task011. 注释在python中，同其他程序语音一样，注释分为单行注释和区间(多行)注释单行注释用 # 来注释内容eg:# 这是注释内容print("Hello word!")print(“I love python”) # Start of learning# 输出内容区间注释用 ‘’’ ‘’’,或 “”" “”",用于注释多行内容eg:'''第一行注释内容,用三个单引号第二行注释内容,用三个单引号第三行注释内容,用三个单引号'''print

2020-07-22 17:45:19 124

原创零基础入门NLP - Task1 赛题理解

Task1 赛题理解赛题名称: 零基础入门NLP之新闻文本分类赛题内容:赛题以自然语言处理为背景，要求选手根据新闻文本字符对新闻的类别进行分类，这是一个经典文本分类问题。赛题数据:赛题数据为新闻文本，并按照字符级别进行匿名处理。整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成：训练集20w条样本，测试集A包括5w条样本，测试集B包括5w条样本。为了预防选手人工标注测试集的情况，我们将比赛数据

2020-07-21 22:56:43 144 2

原创 pandas与excel 常用操作（一）

利用pandas创建excel文档初始数据import pandas as pdpop = {'Nevada':{2001:2.4,2002:2.9},'Ohio':{2000:1.5,2001:1.7,2002:3.6}}frame1 = pd.DataFrame(pop)frame1结果如下：NevadaOhio20012.41.720022....

2020-04-19 22:04:14 234

fffflyinthesky的博客