机器学习
walker.wu
这个作者很懒,什么都没留下…
展开
-
机器学习第一篇----感知机
《统计学习方法》看到第三遍,准备给大家分享一下感悟,已经一些算法的代码实现首先来看下《统计学习方法》对感知机的定义 其实我们想象一下,就是一条线(直线<线性可分>,曲线都可以<非线性可分>),把空间一分为二,很容易理解。 f(x) 是一个激励函数,经过拟合的参数w,b计算,输入的x,然后就可以将X的空间分为{+1,-1}。但是w,b什么时候达到最优呢?看下面...原创 2018-09-16 22:08:02 · 221 阅读 · 0 评论 -
机器学习第二篇----协同过滤
中秋假期期间,又一次拜读了《推荐系统实战》一书,把一些收获分享给大家。提到推荐系统,就不得不提“协同过滤” : 协同过滤简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。(来自百度百科)。上述解释再通俗一点来讲...原创 2018-09-26 17:18:06 · 428 阅读 · 0 评论 -
机器学习第三篇----lightgbm 使用感想
lightgbm 是微软开源的一款快速的,分布式的,高性能的基于决策树算法的梯度提升框架。可用于排序,分类,回归以及很多其他的机器学习任务中。它有以下优势:更快的训练效率低内存使用更好的准确率支持并行学习可处理大规模数据首先看下lightgbm的python 实现# coding: utf-8# 函数的更多使用方法参见LightGBM官方文档:http://lightgbm....原创 2019-01-05 17:29:39 · 2675 阅读 · 4 评论 -
机器学习第四篇----MAB(多臂老虎机)一次失败的尝试
最近在搞机器学习原创 2019-01-24 09:53:16 · 3046 阅读 · 0 评论 -
机器学习第五篇----TF-IDF算法详解
TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。在前期的关键词提取和文本one-hot的时候使用较多1、TF-IDF 算法TF(词频):表示词w在文档Di中出现的频率,计算公式如下其中count(w)为关键词w出现的次数,|Di| 为文档Di中所有词的数量。IDF(逆文档频...原创 2019-01-26 09:25:56 · 1249 阅读 · 1 评论 -
机器学习第六篇----FastText实践
最近在做对话机器人,使用了调研之后使用了fasttext,主要考虑对话机器人主要是短文本,而且与基于神经网络的文本分类算法相比它主要由两个优点(1)首先FastText在保持高精度的同时极大地加快了训练速度和测试速度。(2)再有就是不需要使用预先训练好的词向量,因为FastText会自己训练词向量1.fasttext 安装:pip install fasttext2.fasttext ...原创 2019-02-23 22:14:53 · 903 阅读 · 0 评论 -
机器学习第七篇----方差、偏差
最近在研究方差、偏差对结果评测的影响偏差:模型预期的预测与我们将要预测的真实值之间的差值,用来衡量模型预测值和真实值之间的差异。方差:是实际值与期望值之差平方的平均值,是预测模型的不同关系间变化的多少在机器学习过程中针对偏差和方差常会出现以下场景:高偏差:欠拟合,训练误差很大,训练误差与测试误差差距很大,解决方法:1.寻找更好的特征(可以先使用gdbt筛选一波)2.用更多的特征 (增...原创 2019-03-30 22:24:30 · 442 阅读 · 0 评论 -
机器学习之样本不均衡
样本不平衡问题在很多场景中存在,例如欺诈检测,风控识别,在这些样本中,黑样本(一般为存在问题的样本)的数量一般远少于白样本(正常样本)。上采样(过采样)和下采样(负采样)策略是解决类别不平衡问题的基本方法之一。上采样即增加少数类样本的数量,下采样即减少多数类样本以获取相对平衡的数据集。最简单的上采样方法可以直接将少数类样本复制几份后添加到样本集中,最简单的下采样则可以直接只取一定百分比的多数...原创 2019-03-24 11:02:10 · 396 阅读 · 0 评论 -
时间序列预测算法----Prophet
上周同事在分享爬虫的过程中,说到了动态调度的难度在于网站的每天的更新的次数,然后我就想到关于时间序列的预测,是否可以解决这个问题。关于时间序列的建模,AR,MA,ARMA等传统的算法已经很成熟,但是效果不是很好,facebook开源的工具Prophet就效果好很多Github地址:https://github.com/facebook/prophet官方网址:https://facebo...原创 2019-04-27 21:12:43 · 3810 阅读 · 1 评论