机器学习
千寻~
这个作者很懒,什么都没留下…
展开
-
XGBoost使用教程(进阶篇)三
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”一、Importing all the librariesimport pandas as pdimport numpy as npfrom matplotlib import pyplot as pltfro...原创 2018-03-02 14:49:41 · 15764 阅读 · 1 评论 -
XGBoost使用教程(纯xgboost方法)一
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”一、导入必要的工具包# 导入必要的工具包import xgboost as xgb# 计算分类正确率from sklearn.metrics import accuracy_score二、数据读取XGBo...原创 2018-03-01 22:31:07 · 80164 阅读 · 7 评论 -
XGBoost使用教程(与sklearn一起使用)二
一、导入必要的工具包# 运行 xgboost安装包中的示例程序from xgboost import XGBClassifier# 加载LibSVM格式数据模块from sklearn.datasets import load_svmlight_filefrom sklearn.metrics import accuracy_scorefrom matplotlib impor...原创 2018-03-02 11:14:21 · 6498 阅读 · 0 评论 -
词嵌入向量(Word Embedding)的建模
1、Embedding函数从前面的定义,我们期望在隐层中找到一个/组嵌入函数W(这里采用lookup table的方式),使得![][3]具体的,假设指定固定的向量维度,W("篮球")=(0.2, -0.4, 0.7, ...),W("苹果")=(0.0, 0.6, -0.1, ...),W初始化时可以赋值给每个维度一个随机数,并通过与output层连接建立学习模型/任务后得到有意义的向量。...原创 2018-09-29 21:48:03 · 6318 阅读 · 1 评论 -
机器学习算法-朴素贝叶斯分类
先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打球(play)。如果给出新一天的气象指标数据:sunny,cool,high,TRUE,判断一下会不会去打球。table 1outlooktemperaturehumiditywindyplaysunnyhothighFALSEnosunnyhothighTR...转载 2017-02-28 19:27:32 · 1010 阅读 · 1 评论 -
机器学习算法-决策树
归纳决策树ID3先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打球(play)。如果给出新一天的气象指标数据:sunny,cool,high,TRUE,判断一下会不会去打球。table 1outlooktemperaturehumidity原创 2016-10-27 00:20:45 · 1308 阅读 · 0 评论 -
余弦方法计算相似度算法--Python实现 Java实现
(1)余弦相似性 通过测量两个向量之间的角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。所以,它通常用于文件比较。 详见百科介绍(点击打开链接)(2)算法实现的中未使用权重(IDF ---逆文档频率),使用词转载 2016-08-09 20:02:15 · 4136 阅读 · 0 评论 -
余弦计算相似度度量
余弦计算相似度度量相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何,一个好的做法就是将这些文本中词语,映射到向量空间,形成文本中文字和向量数据的映射关系,通过计算几个或者多个不同的向量的差异的大小,来计算文本的相似度。下面介绍一个详细转载 2016-08-09 19:19:55 · 4081 阅读 · 0 评论 -
编辑距离算法
1.介绍:Levenshtein 距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。编辑距离的算法是首先由俄国科学家Levenshtein提出的,故又叫Levenshtein Distance。2.用途模糊查询3.实现过程a.首先是有两个字符串原创 2016-08-10 15:34:25 · 787 阅读 · 1 评论 -
机器学习中的有监督学习,无监督学习,半监督学习的区别
在机器学习(Machine learning)领域,主要有三类不同的学习方法:监督学习(Supervised learning)、非监督学习(Unsupervised learning)、半监督学习(Semi-supervised learning),监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类。转载 2017-02-28 21:20:03 · 13271 阅读 · 0 评论 -
机器学习中分类与聚类的本质区别
机器学习中有两类的大问题,一个是分类,一个是聚类。 在我们的生活中,我们常常没有过多的去区分这两个概念,觉得聚类就是分类,分类也差不多就是聚类,下面,我们就具体来研究下分类与聚类之间在数据挖掘中本质的区别。分类分类有如下几种说法,但表达的意思是相同的。分类(classification):分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的转载 2017-02-28 19:52:45 · 964 阅读 · 0 评论 -
大白话讲解遗传算法
博客原文:cnblogs.com/heaad/archive/2010/12/23/1914725.html 遗传算法 ( GA , Genetic Algorithm ) ,也称进化算法 。 遗传算法是受达尔文的进化论的启发,借鉴生物进化过程而提出的一种启发式搜索算法。因此在介绍遗传算法前有必要简单的介绍生物进化知识。一.进化论知识 作为遗传算法生物背景的介绍,下转载 2017-04-21 15:20:59 · 3940 阅读 · 0 评论 -
机器学习:什么是欠拟合和过拟合
1. 什么是欠拟合和过拟合先看三张图片,这三张图片是线性回归模型 拟合的函数和训练集的关系第一张图片拟合的函数和训练集误差较大,我们称这种情况为欠拟合 第二张图片拟合的函数和训练集误差较小,我们称这种情况为合适拟合 第三张图片拟合的函数完美的匹配训练集数据,我们称这种情况为过拟合类似的,对于逻辑回归同样也存在欠拟合和过拟合问题,如下三张图2. 如何解决欠拟合...原创 2019-07-27 11:25:32 · 33132 阅读 · 2 评论 -
Bandit算法与推荐系统
推荐系统里面有两个经典问题:EE和冷启动。前者涉及到平衡准确和多样,后者涉及到产品算法运营等一系列。Bandit算法是一种简单的在线学习算法,常常用于尝试解决这两个问题,本文为你介绍基础的Bandit算法及一系列升级版,以及对推荐系统这两个经典问题的思考。什么是Bandit算法为选择而生我们会遇到很多选择的场景。上哪个大学,学什么专业,去哪家公司,中午吃什么等等。这些事情,转载 2017-05-04 10:38:21 · 770 阅读 · 0 评论 -
【深度学习】RNN(循环神经网络)
1 循环神经网络(RNN)概念循环神经网络,是一种线性序列结构,前一个神经元的结果会传递给后一个神经元。 递归神经网络,是一种层次结构,前一个神经元会影响后一个神经元,后一个神经元同样也会影响前一个神经元。循环神经网络是递归神经网络中的一种特殊情况,因为线性结构是层次结构的一种特例。2 RNN结构2.1 误差传播为什么容易消失或放大1)如果采用线性激活函数,误差转载 2017-05-12 21:52:16 · 1155 阅读 · 0 评论 -
文本相识度算法(余弦相似性、简单共有词、编辑距离、SimHash、汉明距离、Jaccard相似性系数、欧几里得距离、曼哈顿距离 )
文本相似度计算在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。比如舆论控制,我们假设你开发了一个微博网站,并且已经把世界上骂人的句子都已经收录进了数据库,那么当一个用户发微博时会先跟骂人句子的数据库进行比较,如果符合里面的句子就不让用户发出。通常情况下,很多工程师就会想到用like或者where的sql语法去查找。可是当情况更为复杂呢?数据库存放了“你是个转载 2016-08-09 19:01:50 · 11371 阅读 · 1 评论 -
centos6.9 安装tensorflow心得体会
综述:centos安装tensorflow太坑了,如何你是个使用linux的新手,建议你不要尝试了,可以换ubuntu或者mac系统进行安装配置tensorflow。难点一:importError: /lib64/libc.so.6: version `GLIBC_2.14' not foundimport tensorflow时提示GLIBC_2.14找不到,解决方法如下1、查看...原创 2017-08-09 11:04:21 · 1675 阅读 · 0 评论 -
统计学习:正则化与交叉验证
1. 正则化模型选择的经典方法是正则化(regularization)。正规化是结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer)或罚项(penalty term)。正则化一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如,正则化项可以是模型参数向量的范数。 正则化一般具有如下形式 minfϵΓ1N∑i=1NL(yi,f(xi))原创 2017-09-29 16:19:55 · 1559 阅读 · 0 评论 -
机器学习中的各种距离
在做分类时常常需要估算不同样本之间的相似性(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离转载 2017-10-16 15:03:16 · 426 阅读 · 0 评论 -
统计学习方法---感知机算法实现代码
算法一首选,我们利用Python,按照上一节介绍的感知机算法基本思想,实现感知算法的原始形式和对偶形式。#利用Python实现感知机算法的原始形式# -*- encoding:utf-8 -*-"""Created on 2017.6.7@author: Ada"""import numpy as npimport matplotlib.pyplot as plt转载 2017-11-14 16:23:40 · 745 阅读 · 0 评论 -
统计学习知识---感知机学习算法的拓展(非线性可分数据问题)
感知机算法中的优化方法的几何解释本部分参考台湾大学林轩田教授机器学习基石课程—PLA部分PLA算法只有在出现错误分类的时候,才去调整w和b的值,使得错误分类减少。假设我们遇到的数据点(xn,yn)是我们第t次分类错误,那么就有因为是二分类问题,所以只会出现以下两种错误分类的情况:第一种:当yn=+1 时,则我们的错误结果为wTxn=wt∗xn=||w||∗||xn||∗cosΘ<...转载 2017-11-14 16:27:59 · 2327 阅读 · 3 评论 -
统计学习方法---感知机算法拓展(神经网络)
神经元神经元是神经网络的基本单元,接受多个神经元传递过来的输入信号,然后通过激活函数计算输出信号。从图里可以看到每个输入信号都有一个权重w,这个权重是动态改变的。我们平时所说的训练神经网络主要是训练(修正)这个权重w。同时每个神经元有一个参数theta,这个theta是阈值,生物意义上,如果输入信号的加权和比阈值高,意味着这个神经元被激活(处于兴奋状态)。信号向下一转载 2017-11-14 16:35:51 · 1007 阅读 · 0 评论 -
统计学习方法---k近邻法
本文对应《统计学习方法》第3章,用数十行代码实现KNN的kd树构建与搜索算法,并用matplotlib可视化了动画观赏。k近邻算法给定一个训练数据集,对新的输入实例,在训练数据集中找到跟它最近的k个实例,根据这k个实例的类判断它自己的类(一般采用多数表决的方法)。k近邻模型模型有3个要素——距离度量方法、k值的选择和分类决策规则。模型转载 2017-11-14 16:59:05 · 630 阅读 · 0 评论 -
统计学习方法---KNN(K近邻)
前言k邻近算法(k-nearest)是一种判别模型,解决分类问题和回归问题,以分类问题为主,在此我们也主要介绍分类问题中的k近邻算法。k近邻算法的输入为实例的特征向量,对应予特征空间中的点;输出为实例的类别,可以取多类,(前面我们介绍的三种方法主要是解决二分类问题)。k近邻算法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等决策方法进...转载 2017-11-14 16:51:47 · 1384 阅读 · 0 评论 -
统计学习方法---
4、朴素贝叶斯法http://www.hankcs.com/ml/naive-bayesian-method.htmlhttp://blog.csdn.net/u010626937/article/details/738107535、决策树http://www.hankcs.com/ml/decision-tree.html转载 2017-11-15 14:42:04 · 313 阅读 · 0 评论 -
NumPy、Pandas、Matplotlib、 scipy机器学习库安装
NumPy系统是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix))。据说NumPy将Python相当于变成一种免费的更强大的MatLab系统。一个用python实现的科学计算包。包括:1、一个强大的N维数组对象Array;2、比较成...原创 2017-07-12 16:24:59 · 1526 阅读 · 0 评论 -
关联规则分析 二
关联规则是形如X→Y的蕴涵式,其中,X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS)故事 在描述有关关联规则的一些细节之前,先来看一个有趣的故事: "尿布与啤酒"的故事。在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个原创 2017-11-27 17:22:00 · 1888 阅读 · 0 评论 -
机器学习---分类、回归、聚类、降维的区别
由上图我们可以看到,机器学习分为四大块,分别是 classification (分类), regression (回归), clustering (聚类), dimensionality reduction (降维)。给定一个样本特征 x, 我们希望预测其对应的属性值 y, 如果 y 是离散的, 那么这就是一个分类问题,反之,如果 y 是连续原创 2017-11-26 15:43:24 · 22228 阅读 · 0 评论 -
统计学习方法----统计学习知识综述
第一章 统计学习方法概论统计学习的主要特点是(1)平台--------计算机及网络,是建立在计算机及网络之上的;(2)研究对象--------数据,是数据驱动的学科;(3)目的---------对数据进行预测与分析;(4)中心---------方法,统计学习方法构建模型并应用模型进行测试与分析;(5)交叉学科--------概率论、统计学、信息论、计算理论、最优化理论以及计算机转载 2017-11-14 15:32:33 · 759 阅读 · 1 评论 -
回归(regression)与分类(classification)的区别
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”回归与分类的不同1.回归问题的应用场景(预测的结果是连续的,例如预测明天的温度,23,24,25度)回归问题通常是用来预测一个值,如预测房价、未来的天气情况等等,例如一个产品的实际价格为500元,通过回归分析预测值为...原创 2020-06-22 15:58:03 · 31336 阅读 · 6 评论 -
推荐算法--基于用户的协同过滤算法
基于邻域的算法分为两大类,一类是基于用户的协同过滤算法,另一类是基于物品的协同过滤算法。我们先来看看基于用户的协同过滤算法,基于物品的协同过滤算法大体思路和基于用户的差不多,可以自己参考对比学习。基于用户的协同过滤算法 每年新学期开始,刚进实验室的师弟总会问师兄相似的问题,比如“我应该买什么专业书啊”、“我应该看什么论文啊”等。这个时候,师兄一般会给他们做出一些推...转载 2017-11-27 19:47:27 · 11196 阅读 · 1 评论 -
推荐算法--基于物品的协同过滤算法
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”ItemCF:ItemCollaborationFilter,基于物品的协同过滤算法核心思想:给用户推荐那些和他们之前喜欢的物品相似的物品。比如,用户A之前买过《数据挖掘导论》,该算法会根据此行为给你推荐《机器...转载 2017-11-27 21:30:22 · 37587 阅读 · 9 评论 -
推荐算法概述:基于内容的推荐算法、协同过滤推荐算法和基于知识的推荐算法
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”所谓推荐算法就是利用用户的一些行为,通过一些数学算法,推测出用户可能喜欢的东西。推荐算法主要分为两种1. 基于内容的推荐 基于内容的信息推荐方法的理论依据主要来自于信息检索和信息过滤,所谓的基于内容的推荐方法...原创 2017-11-27 21:23:28 · 25394 阅读 · 4 评论 -
关联规则分析 一
数据挖掘是指以某种方式分析数据源,从中发现一些潜在的有用的信息,所以数据挖掘又称作知识发现,而关联规则挖掘则是数据挖掘中的一个很重要的课题,顾名思义,它是从数据背后发现事物之间可能存在的关联或者联系。举个最简单的例子,比如通过调查商场里顾客买的东西发现,30%的顾客会同时购买床单和枕套,而购买床单的人中有80%购买了枕套,这里面就隐藏了一条关联:床单—>枕套,也就是说很大一部分顾客会同时购买床单和转载 2017-11-27 17:11:03 · 19556 阅读 · 0 评论 -
统计学习方法---感知机
《统计学习方法》系列笔记的第一篇,对应原著第二章。大量引用原著讲解,加入了自己的理解。对书中算法采用Python实现,并用Matplotlib可视化了动画出来。概念感知机是二分类模型,输入实例的特征向量,输出实例的±类别。感知机模型定义假设输入空间是,输出空间是,x和y分属这两个空间,那么由输入空间到输出空间的如下函数:称为感知机。其中,转载 2017-11-14 11:04:12 · 428 阅读 · 0 评论 -
分类问题、标注问题与回归问题的区别
1.分类问题分类问题是监督学习的一个核心问题。在监督学习中,当输出变量Y,Y取有限个离散值时,预测问题便成为分类问题。监督学习从数据中学习一个分类决策函数或分类模型,称为分类器(classifier)。分类器对新的输入进行输出的预测,这个过程称为分类。分类问题包括学习与分类两个过程。在学习的过程中,根据已知的训练样本数据集利用有效的学习方法学习一个分类器;在分类中,利用学习转载 2017-12-27 10:54:04 · 18650 阅读 · 1 评论 -
nlp--Latent Semantic Analysis(LSA/ LSI)算法简介
1. 传统向量空间模型的缺陷 向量空间模型是信息检索中最常用的检索方法,其检索过程是,将文档集D中的所有文档和查询都表示成以单词为特征的向量,特征值为每个单词的TF-IDF值,然后使用向量空间模型(亦即计算查询q的向量和每个文档di的向量之间的相似度)来衡量文档和查询之间的相似度,从而得到和给定查询最相关的文档。 向量空间模型简单的基于单词的出现与否以及TF-IDF等信息来进行检索,但是...转载 2018-01-12 15:11:04 · 1822 阅读 · 0 评论 -
机器学习——K-近邻(KNN)算法
一 . K-近邻算法(KNN)概述 最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类。但是怎么可能所有测试对象都会找到与之完全匹配的训练对象呢,其次就是存在一个测试对象同时与多个训练对象匹配,导致一个训练对象被分到了多个类的问题,基于这些问题呢,就产生了KNN。 KNN是通过测量不同特征转载 2017-09-18 09:58:31 · 971 阅读 · 0 评论 -
数据归一化和两种常用的归一化方法
数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种常用的归一化方法:一、min-max标准化(Min-Max Normalization)也称为离差标...转载 2018-01-03 16:28:54 · 6609 阅读 · 0 评论 -
主成分分析(PCA)原理详解
一、PCA简介1. 相关背景主成分分析(Principal Component Analysis,PCA)是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。 在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰转载 2018-01-23 20:51:21 · 3168 阅读 · 0 评论