机器学习及应用
文章平均质量分 75
本专栏将以《推荐系统技术、评估及高效算法》、《推荐系统实践》、《量化投资与对冲基金入门》和《Python与量化投资从基础到实践》为线索,介绍推荐系统/量化投资基本概念、数学建模、基本技术、评估要点、高效算法等。后期将介绍将深度学习应用到推荐系统中的论文和案例。
HGaviN
邮箱:heguannan@163.com
展开
-
《机器学习》知识点总结--手写笔记(37)
一、参考文献1.《机器学习》 周志华著2.网易云课堂 机器学习工程师微专业二、知识点手写笔记 ...原创 2019-01-22 20:04:55 · 1064 阅读 · 0 评论 -
挑战排行前4%--Titanic: Machine Learning from Disaster--kaggle入门(40)
1.题目链接Titanic: Machine Learning from Disaster2.参考资料1.Titanic [0.82] - [0.83]3.线上成绩截至2019年2月24日排名:413/9909 前4%线上成绩:0.822964.流程及代码4.1 载入数据import pandas as pd import numpy as npim...原创 2019-02-24 17:08:28 · 469 阅读 · 0 评论 -
挑战排行前3% --House Prices: Advanced Regression Technique--kaggle入门(39)
1.题目链接House Prices: Advanced Regression Technique2.参考资料(1)Comprehensive data exploration with Python (国内访问速度较慢,可以参考我博客的中文翻译 点我!!)(2)Stacked Regressions : Top 4% on LeaderBoard(线上成绩0.11...原创 2019-02-01 17:02:15 · 975 阅读 · 0 评论 -
使用python进行全面数据探索--House Prices: Advanced Regression Technique--kaggle入门(38)
一、翻译声明本文为翻译Kaggle比赛House Prices: Advanced Regression Technique中Kernels的分享文章'Comprehensive data exploration with python'(国内访问速度较慢)。本文翻译进行了适当的删改,以突出重点。二、正文翻译本文根据Joseph F Hair 所著书籍《Multivariate Dat...翻译 2019-01-31 22:16:52 · 1028 阅读 · 0 评论 -
《量化投资与对冲基金入门》--量化投资--读书笔记(36)
作者:丁鹏出版社:中国工信出版社补充笔记1、传统投资方法:基本面分析法和技术分析法2、有效市场假说:在无效市场中,价格反映部分历史信息,采用技术分析法有效;在弱有效市场中,价格反映了全部历史信息,采用基本面分析有效;在半有效市场中,价格反映了全部公开信息,内幕消息或量化分析有效;在强有效市场中,价格反映了全部信息,所有分析手段均无效。3、传统基金目标:跑赢某个基准,但亏损几率大...原创 2018-12-21 13:08:00 · 1950 阅读 · 0 评论 -
o2o优惠券使用预测--天池新人实战赛--Baseline代码及说明 ( 35 )
一、代码说明1.代码为一个baseline代码,处理特征和使用的模型都非常简单,将会在后期完善。2.代码中只使用offline数据3.只是简单对日期和优惠券特征进行了简单的处理。4.代码中使用逻辑回归进行分类二、python源码# -*- coding: utf-8 -*-"""Created on Tue Sep 18 10:13:08 2018@author: H...原创 2018-09-20 09:39:01 · 2109 阅读 · 2 评论 -
常用机器学习算法的python源码实现--机器学习--sklearn简单源码(34)
一、思维导图二、Python源码## 二分类问题* 使用skleran自带的逻辑回归、支持向量机、决策树API进行二分类的任务* 使用sklearn的iris数据集,将iris数据集变成一个二分类的数据集,删除类别为2的数据* 使用准确率对模型进行评价### 准备数据import pandas as pdimport numpy as npfrom sklearn i...原创 2018-09-07 15:41:35 · 3064 阅读 · 0 评论 -
概率机器学习(马尔科夫链、主题模型)--机器学习--思维导图(33)
原创 2018-09-01 18:18:46 · 707 阅读 · 0 评论 -
非监督学习算法(聚类、降维、关联规则挖掘)--机器学习--思维导图手写笔记(32)
一、思维导图(点击图方法)二、补充笔记三、K-means算法的收敛性说明:当聚类中心μ确定时,求得的各个数据的cluster满足聚类目标函数最小。 当数据cluster确定时,求得的聚类中心μ满足聚类目标函数最小。可以发现,k-means的两个步骤都是在降低聚类目标函数的函数值,并且聚类的目标函数的函数值的下界为0. 所以,可以k-means可以收敛。 ...原创 2018-08-06 18:23:01 · 1959 阅读 · 0 评论 -
概率论、数理统计、EM算法--机器学习数学基础--手写笔记(31)
原创 2018-08-03 16:56:16 · 882 阅读 · 0 评论 -
矩阵分析、SVD、PCA--机器学习数学基础--手写笔记(30)
一、手写笔记原创 2018-07-29 16:03:21 · 772 阅读 · 0 评论 -
特征工程和模型融合--机器学习--思维导图和笔记(29)
一、思维导图(点击图方法)二、补充笔记(1)常见的特征工程主要指对各种类型的特征进行处理,包括数值型特征、类别型特征、时间型特征和其他类型特征和组合特征。对于数值型特征,可以进行幅度调整(包括min-max缩放、标准化、归一化)、统计值分析(最大值、最小值、平均值等)、离散化、高次特征、通过特征的四则运算获取新特征、或将数值型特征转换为类别型。对于类别型特征,可以进行one-hot...原创 2018-07-23 17:04:34 · 2761 阅读 · 0 评论 -
凸优化、对偶理论和支持向量机--机器学习数学基础--思维导图和笔记(28)
一、思维导图二、SVM补充笔记1、SVM基本模型的对偶问题是强对偶,那么对偶问题的最优解也为原问题的最优解。原创 2018-07-10 21:52:32 · 882 阅读 · 0 评论 -
决策树与随机森林--机器学习--思维导图、笔记(27)
决策树、回归树、随机森林原创 2018-06-27 12:35:56 · 1700 阅读 · 0 评论 -
机器学习概述、线性回归和逻辑回归--机器学习--思维导图、小抄、笔记(26)
一、思维导图 二、sk-learn小抄图片来源:http://scikit-learn.org/stable/tutorial/machine_learning_map/三、算法笔记1. 留出法将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,在S中训练模型,在T上测试模型。注意点:(1)训练集/测试集要尽量保持数据...原创 2018-06-25 11:55:29 · 1940 阅读 · 0 评论 -
优化论(1)--机器学习数学基础--思维导图和笔记(25)
一、思维导图二、补充笔记1、梯度的定义$$\nabla f(x) = \frac{{\partial f(x)}}{{\partial x}} = \left[ \begin{array}{l}\frac{{\partial f(x)}}{{\partial {x_1}}}\\{\rm{ }} \vdots \\\frac{{\partial f(x)}}{{\partial {x_n}}}\en...原创 2018-06-24 19:08:28 · 659 阅读 · 0 评论 -
IMDb电影评论情感预测(文本数据预处理)--keras--python源码(24)
一、说明本代码使用keras对文本文档进行处理,主要包括1.使用urllib下载数据集2.使用tarfile解压数据集3.使用re书写正则表达式,替换文本中的格式符4.使用Tokenizer去建立字典5.使用sequence去变换文本长度,短的补0,长的截取6.使用Embedding层将数字列表转换为向量列表原创 2018-06-04 15:51:24 · 3403 阅读 · 0 评论 -
泰坦尼克号生存预测(数值数据预处理)--keras--python源码(23)
一、说明本源码主要利用python对于数据进行预处理,包括:(1)从指定的url中,下载数据文件(2)使用pandas读取xls文件,填充空缺的数据。(3)将性别转成二进制编码(4)对特殊字段进行了one-hot编码(5)进行数据归一化(6)按比例将数据分为训练数据和测试数据(7)构造感知机模型,对生存率进行预测...原创 2018-06-01 16:45:21 · 3105 阅读 · 0 评论 -
多层感知机和卷积神经网络图像识别(mnist,CIFAR-10)--tensorflow,keras--源码(22)
一、多层感知机手写数字识别网络结构(mnist)本源码的神经网络为单隐层神经网络,输出层的神经元数量为784,隐层为全连接层,隐元个数为1000.在隐层后接入一个dropput层,用来防止过拟合。输出层为神经元为10的softmax层。keras代码中手动转换了数据的存储形式,并且进行了归一化。而tensorflow中的数据已经进行了预处理,在tensorflow中数据直接使用。在keras的代码中batch_size是200,在tensorflow中的batch_size是100。原创 2018-05-30 17:20:12 · 2134 阅读 · 0 评论 -
RNN(循环神经网络)---deeplearning.ai---思维导图(21)
一、循环神经网络原创 2018-05-15 14:57:06 · 899 阅读 · 0 评论 -
CNN(卷积神经网络)---deeplearning.ai---思维导图(20)
点击图放大原创 2018-05-07 15:16:46 · 1451 阅读 · 0 评论 -
ML strategy(机器学习策略)---deeplearning.ai---思维导图(19)
点击图放大原创 2018-04-30 16:15:42 · 403 阅读 · 0 评论 -
Hyperparameter tuning/Batch Normalization(超参数调试、Batch正则化及优化)---deeplearning.ai---笔记(18)
一、思维导图二、重要的超参数学习速率alpha>mini-batchsize/hidden units>layers/learning rate decayAdam算法中的参数几乎不调试。调试的方法采取从粗糙到精细的方法,通过随机进行超参数的选择,观察这些超参数从而找到规律。估计超参数的大致范围,然后进行精细化调整。在进行随机生成随机数的时,不采用线性生成的方式。比如:如果你要搜索0....原创 2018-04-29 16:49:56 · 533 阅读 · 0 评论 -
Optimization algorithms(优化算法)---deeplearning.ai---笔记(17)
一、思维导图二、关键公式(1)momentum梯度下降$$\begin{array}{l}{{\rm{v}}_{dW}} = \beta {v_{dW}} + (1 - \beta )dW\\{{\rm{v}}_{db}} = \beta {v_{db}} + (1 - \beta )db\\W = W - \alpha {{\rm{v}}_{dW}},b = b - \alpha {{\rm{v...原创 2018-04-27 14:35:45 · 868 阅读 · 0 评论 -
Setting up your ML application(深度学习实践技巧)---deeplearning.ai---笔记(16)
一、思维导图二、正则化正则化是一个较好的方法去解决神经网络的过拟合问题。我的理解是:如果一个神经网络出现过拟合,那么说明这个神经网络既拟合了输入数据中的特征部分,也拟合了输入数据的噪声部分。当神经网络处于过拟合,那么神经网络拟合的函数就非常复杂。那么非常复杂的函数就需要更多的神经元,更深的神经网网络才能表示。那么,现在有两个思路来解决过拟合问题(不要让神经网络太复杂),1是降低每个神经元的输出。使...原创 2018-04-26 15:22:56 · 396 阅读 · 0 评论 -
Deep NN(深度神经网络)---deeplearning.ai---笔记及Python源码(15)
深度神经网络指的是多隐层的神经网络。本文采用一个两输入,3个隐藏层,1个输出层来进行说明深度神经网络的前向和后向传播,以及具体的公式推导和代码撰写。一、符号定义参看笔记13和笔记14二、基本模型三、模型计算(1) 前向传播:在样本数为1的情况$$\begin{array}{l}{a^{[0]}} = {\left( {{x_1},{x_2}} \right)^T}\\{z^{[1]}} ...原创 2018-04-25 20:47:26 · 1056 阅读 · 0 评论 -
Single hidden layer NN(单隐层神经网络)---deeplearning.ai---笔记及Python源码(14)
一、预备知识笔记13 链接:点击打开链接二、基本理论(1)基本模型图示的为一个单隐层且隐层中神经元的数量为4,输出层为单层,神经元为1的神经网络。本例子中,神经元的均使用了sigmoid函数作为激活函数。从输入层到输出层依次进行编号,那么图示的输入层编号为0,隐层为1,输出层为2。并对符号做以下规定:W[1]为隐层的权值,b[1]为隐层的偏置向量,a[1]为隐层的输出,W[2]为输出层的权值,b[...原创 2018-04-16 17:22:45 · 1262 阅读 · 0 评论 -
推荐系统小结(12)
一、思维导图(单击图放大)二、反思小结1、推荐系统通过使用用户的一切信息,来对用户的喜好进行捕捉,来进行推荐。但是,推荐系统的目的是为用户推荐用户需要或者感兴趣的商品。而在书中,仅仅是谈用户的喜好和兴趣,这在音乐电影推荐上能够适用,但是在物品推荐上,尤其是电商推荐上,就不一定。在电商推荐上,我觉得最重要的是捕捉用户的需求。例如1个用户有在X猫超市买洗衣液的习惯,那么电商推荐应该要捕捉到用户,多久能...原创 2018-03-30 10:12:56 · 447 阅读 · 0 评论 -
Logistic regression(逻辑回归)---deeplearning.ai---笔记及Python源码(13)
一、课程链接点击打开链接二、基本理论(1)模型图:图中所示的为逻辑回归模型,输入为一个一维特征x,输出y hat为预测值。中间神经元的使用了sigmoid函数作为激活函数。那么$$\begin{array}{l}z = wx + b\\\widehat y = \sigma (z) = \frac{1}{{1 + {e^{ - z}}}} \in[0,1]\end{array}$$其中w为权值(w...原创 2018-04-13 15:48:57 · 473 阅读 · 0 评论 -
基于隐语义模型的推荐算法---《推荐系统实践》---Python源码(11)
一、基本隐模型定义$$r_{ui}=\sum_{f=0}^{F}p_{u,f}q_{i,f}$$$r_{ui}$ 表示用户u对物品i的兴趣度,$p_{u,f}$表示用户和隐类的关系,$q_{i,f}$表示物品i与隐类的关系。p 和 q需要根据数据集进行训练。训练成本函数:$$C = \sum_{(u,i)\in K}^{ } (r_{ui}-\sum_{f=0}^{F}p_{u,f}q_{i,f}...原创 2018-03-30 09:39:57 · 2239 阅读 · 6 评论 -
基于物品的协同过滤算法---《推荐系统实践》---Python源码(10)
一、源码说明基于物品的协同过滤算法和基于用户的协同过滤算法类似,以给该物品评分的用户作为物品的特征向量,从而计算物品之间的余弦相似度。以下代码根据点击打开链接修改而来,修改了计算相似度的函数和进行推荐的函数。推荐效果的准确度不到10%,基于用户的准确度在20%。二、准确度不高的原因分析从推荐的结果看,根据代码设定是要推荐TOP-10的一个列表,但是结果往往很多只有3,4个,并没有10个。原因是用户...原创 2018-03-27 10:55:45 · 1843 阅读 · 0 评论 -
基于用户的协同过滤算法---《推荐系统实践》---Python源码(9)
一、总体说明本代码以《推荐系统实践》这本书的代码为框架,进行改写。数据集为点击打开链接中的ratings.dat数据。为了方便起见,所有代码都写在一个文件中,能够保证无需任何更改,直接执行,就能出结果二、符号说明参数名 类型 说明 data list 读取ratings.dat的全部数据 M int 将data近似分为M份,M-1为训练数据,1份为测试数...原创 2018-03-26 15:18:06 · 1847 阅读 · 0 评论 -
推荐系统评估---《推荐系统技术、评估及高效算法》---读书笔记(8)
一、目录组织图(单击图方法)二、补充笔记1、因为推荐系统的算法多种多样,为了评估算法对数据的是影响,可以采取离线实验,用户调查、在线实验的方式进行。2、离线实验的目的是过滤掉不恰当的方法,减轻用户调查和在线实验的成本。3、对于得到的实验数据和统计结果,可以采取统计分析工具,比如t检验,置信度,置信区间等方法。4、下面的一些指标有些只能在在线实验和用户调查环节得到。5、预测准确度一般可以使用均方根误...原创 2018-03-20 16:09:07 · 1916 阅读 · 0 评论 -
情境感知(上下文信息)推荐系统---《推荐系统技术、评估及高效算法》---读书笔记(7)
一、目录组织图(单击图放大)二、补充笔记1、情境,简言之,可以理解为用户的一些额外信息,比如位置、时间、天气、是否有同伴陪同等。我认为是能够影响用户决策的一些额外的信息。2、推荐问题可以归纳为预测一个用户未接触的物品的评分,这个预测通常是基于该用户对其他物品的评分、其他用户对该物品的评分以及一些其他可以利用的信息。3、显式获得,直接询问用户;隐式获得,例如通过手机获得位置信息;推断获得,通过统计和...原创 2018-03-20 14:29:43 · 2110 阅读 · 0 评论 -
开发基于约束条件的推荐系统---《推荐系统技术、评估及高效算法》---读书笔记(6)
一、目录组织图(单击可放大)二、补充笔记1、基于约束的推荐系统是在信息不完全的情况下,导致基于内容和协同过滤的方法可能失效情况下的一种推荐系统设计方法。它建立在用户的需求和愿望能够明确表述的情况下。我认为这个实际上可以看成一个多类型关键字搜索的过程(比如在X东购买笔记本电脑时,通过勾选内存大小,显卡类型,屏幕大小,价格区间等就能够获得符合要求的笔记本电脑),这个系统是一个用户主动行为,不包含预测的...原创 2018-03-19 15:29:21 · 1269 阅读 · 1 评论 -
协同过滤算法的高级课题---《推荐系统技术、评估及高效算法》---读书笔记(5)
一、目录组织图(单击图放大)二、补充笔记1、本章说的推荐系统实际上被定义成了一个数学问题,就是已知物品的一些特征,用户的一些特征,用户对物品的评价去预测用户对没有评价物品的评价。实际上,随着深度的学习的发展,可能使用深度学习能够得到更好的评分预测。2、当然在电影和音乐的推荐中,评分的高低一定程度上可以反映用户的喜好,但是在购物推荐上,却不一定。3、在基准预测中,预测用户对没评价物品的评分,考虑用户...原创 2018-03-19 15:08:42 · 688 阅读 · 0 评论 -
基于近邻推荐方法综述---《推荐系统技术、评估及高效算法》---读书笔记(4)
一、组织目录图(单击图放大)二、补充笔记1、协同过滤的方法可以分为两类,一种为基于近邻的方法,一种为基于模型的方法。2、基于近邻的方法可以分为基于用户的方法和基于物品的方法。基于用户的方法为了评估用户u对物品i的感兴趣程度,可以利用和用户u相似的用户v对物品i的评价来预测。基于物品的方法,是基于用户u给相似于i的物品的评分来预测用户u对物品i的评分。3、注意协同过滤中的基于近邻中的基于物品的方法和...原创 2018-03-18 17:16:40 · 853 阅读 · 0 评论 -
基于内容的推荐系统---《推荐系统技术、评估及高效算法》---读书笔记(3)
一、目录组织图(点击图放大)二、补充笔记1.基于内容的推荐系统通过分析一系列用户之前已评分物品的文档和(或)描述,从而基于用户已评分对象的特征建立模型或个人信息;简言之,利用物品的内容数据来预测它和用户个人信息的相关性。2.在抽取物品特征的时候,采用的自身或者外部知识源(词典/本体/百科),根据知识源的不同来区分物品的表示方法。3.学习用户特征的算法能够学习一个能对每个用户兴趣建模的函数。这些方法...原创 2018-03-17 17:13:40 · 843 阅读 · 0 评论 -
推荐系统中的数据挖掘方法---《推荐系统技术、评估及高效算法》---读书笔记(2)
一、目录组织图(点击图放大)二、补充笔记1、在社交网络环境下,余弦相似度效果最好。但,在一般案例中,推荐系统预测的精确性不受相似度度量方法选择的影响。2、交叉验证需要大数据集,否则结果不可信。3、分类器评估可以考虑以下指标:真正(TP):分类到A且真的属于A的实例数量,真负(TN):没有分类到A且真的不属于A的实例数量,假正(FP):分类到A但不属于A的实例数量,假负(FN):没有分类到A但属于A...原创 2018-03-17 12:16:51 · 1051 阅读 · 0 评论 -
推荐系统基本概念---《推荐系统技术、评估及高效算法》---读书笔记(1)
一、本书基本信息 书名:《推荐系统技术、评估及高效算法》 作者:Francesco Ricci, Lior Rokach, Bracha Shapira, Paul B.Kantor. 译者:李艳明,胡聪,吴宾等 出版社:机械工业出版社 英文版出版时间:2010年 中文版出版时间:2017年二、概述目录组织图(点击图放大)三、个人体会: 1、 本书中的推...原创 2018-03-17 10:52:40 · 2969 阅读 · 2 评论