机器学习
文章平均质量分 74
我的天空足够你跳舞
技术要不断创新,不断的超越前沿,最终于个人来说,就是不断的突破自己。
展开
-
过拟合和欠拟合通俗的解释
1、经验误差和过拟合、欠拟合经验误差:学习器在训练集上的误差成为经验误差或训练误差过拟合:通俗点说,哎呀这个学习器在训练集上学的太好了,以至于老师没交给他的知识都学会,把自身内涵的知识都学会了,把这部分学到的知识用到测试集上,显然这部分知识是强加给测试集的,我们称之为过拟合欠拟合:顾名思义,你这个学习器学的不好,老师教的东西都没有掌握住,还得继续学,我们称之为欠拟合上面谈了欠拟合和过拟合,哪接下来...原创 2018-06-12 19:07:33 · 1929 阅读 · 0 评论 -
LDA实践1(NLP)
!/usr/bin/python# -*- coding:utf-8 -*-from gensim import corpora, models, similaritiesfrom pprint import pprint# import logging# logging.basicConfig(format='%(asctime)s : %(levelname)s : %(mes...原创 2018-06-27 21:08:54 · 437 阅读 · 0 评论 -
吉布斯采样算法(NLP)
原创 2018-06-27 18:57:22 · 2211 阅读 · 0 评论 -
N-gram模型(自然语言处理)
上图一,表示每个单词在语料库中出现的次数,图二表示接某个单词的次数上图表示后面接某个单词出现的概率原创 2018-06-20 15:27:18 · 282 阅读 · 0 评论 -
在seq2seq中玩文章摘要预处理数据(NLP)
数据预处理:import pandas as pdimport numpy as npimport tensorflow as tfimport refrom nltk.corpus import stopwordsimport timefrom tensorflow.python.layers.core import Densefrom tensorflow.python.ops....原创 2018-07-08 17:21:36 · 2439 阅读 · 12 评论 -
某平台用户流失预警问题实践(机器学习)
在当下我们生活的环境中,经常会有各种购物平台、淘宝平台、京东平台等等,我们都是其中的用户之一,如果咱们长时间不用某一平台,可能会收到某某平台的促销信息,那么平台为什么给我们发这个消息呢,显然平台是经过数据分析,他会分析我们不用这个平台的可能性有多大,现在拿到某平台的一组数据,进行建模分析from __future__ import divisionimport pandas as pdimpo...原创 2018-06-19 00:29:30 · 3357 阅读 · 3 评论 -
信用卡欺诈检测案例实践(机器学习)
这是之前做过的项目实践,现在从头整理一下,再复习梳理清楚整个流程,信用卡欺诈检测,又叫异常检测。我们可以简单想一下,异常检测无非就是正常和异常,任务一个二分类任务,显然正常的占绝大部分,异常的只占很少的比例,我们要检测的就是这些异常的。明确了我们的任务后,我们要进行二分类的处理了。简要说明一下我们拿到的数据集是经过银行初步、筛选拿到的数据集,因为基于银行数据会有相关隐私这个也是可以理解的,但这个不...原创 2018-06-18 17:53:37 · 12838 阅读 · 23 评论 -
机器学习模型的评估与选择
2.1经验误差与过拟合错误率 = a个样本分类错误/m个样本精度 = 1 - 错误率误差:学习器实际预测输出与样本的真是输出之间的差异。训练误差:即经验误差。学习器在训练集上的误差。泛化误差:学习器在新样本上的误差。 过拟合:学习器把训练样本学的”太好”,把不太一般的特性学到了,泛化能力下降,对新样本的判别能力差。必然存在,无法彻底避免,只能够减小过拟合风险。欠拟合:对训练样本的一半性质尚未学好。...转载 2018-06-17 20:53:20 · 548 阅读 · 0 评论 -
验证码识别模型
验证码识别是用这个captcha库里面的一些随机组合生成的验证码集合,然后训练模型,进行测试识别import tensorflow as tffrom captcha.image import ImageCaptchaimport numpy as np import matplotlib.pyplot as plt from PIL import Image import ran...原创 2018-06-17 20:39:05 · 1756 阅读 · 0 评论 -
LDA实践3(NLP)
# !/usr/bin/python# -*- coding:utf-8 -*-import numpy as npimport matplotlib.pyplot as pltimport matplotlib as mplimport ldaimport lda.datasetsfrom pprint import pprintif __name__ == "__main...原创 2018-06-28 10:19:44 · 550 阅读 · 0 评论 -
如何选择机器学习算法建模?以及算法适用场景
原创 2018-09-11 00:00:31 · 275 阅读 · 0 评论 -
生成模型和判别模型对比
比如说你的任务是识别一个语音属于哪种语言。例如对面一个人走过来,和你说了一句话,你需要识别出她说的到底是汉语、英语还是法语等。那么你可以有两种方法达到这个目的:用生成模型的方法是学习每一种语言,你花了大量精力把汉语、英语和法语等都学会了,我指的学会是你知道什么样的语音对应什么样的语言。然后再有人过来对你说话,你就可以知道他的语言对应什么语言;用判别模型的方法是不去学习每一种语言,你只学习这些语言模...转载 2018-09-10 23:53:46 · 340 阅读 · 0 评论 -
简单示例理解朴素贝叶斯算法,通俗易懂
一个简单的例子让我们看一下这个例子在实践中如何运作。假设我们正在建立一个分类器,说明文本是否涉及体育运动。我们的训练集有5句话: Text Category A great game(一个伟大的比赛) Sports(体育运动) The election was over(选举结束) ...转载 2018-09-10 23:50:43 · 5765 阅读 · 4 评论 -
英文文本分类(CNN)
网络结构参照如下图:数据预处理阶段:import numpy as npimport reimport itertoolsfrom collections import Counterdef clean_str(string): """ Tokenization/string cleaning for all datasets except for SST...原创 2018-09-12 18:33:18 · 8852 阅读 · 11 评论 -
自然语言处理在tensorflow中的构建流程
# -*- coding:utf-8 -*-import tensorflow as tfimport numpy as npimport mathimport collectionsimport pickle as pklfrom pprint import pprint#from pymongo import MongoClientimport reimport jieba...原创 2018-08-14 14:04:40 · 396 阅读 · 0 评论 -
推荐系统小结
什么是推荐系统: 自动或被动地为用户推送其可能感兴趣的目标单元(商品、人、活动等)的系统。推荐系统的目的: 通过在用户和目标单元(简称商品)之间建立桥梁(为用户推荐合适的商品,为商品找到合适的用户),为网站的商业目的服务。主要作用包括: a 信息的过滤。由于网上信息、商品等极大丰富,用户不可能挨个去挑选,推荐系统可以把用户不感兴趣的过滤掉,可能感兴趣的挑出来。 b...转载 2018-07-04 17:24:28 · 198 阅读 · 0 评论 -
在tensorflow中玩隐语义模型(推荐系统)
# Imports for data io operationsfrom collections import dequefrom six import next# Main imports for trainingimport tensorflow as tfimport numpy as np# Evaluate train times per epochimport ti...原创 2018-07-04 17:03:36 · 1821 阅读 · 2 评论 -
Surprise库的相关实践(推荐系统)
from surprise import KNNBasic,SVDfrom surprise import Datasetfrom surprise import evaluate, print_perf# http://surprise.readthedocs.io/en/stable/index.html# http://files.grouplens.org/datasets/mov...原创 2018-07-04 14:07:52 · 2740 阅读 · 0 评论 -
RNN识别mnist数据集
用tensorflow跑RNN实现手写体的识别,下面上两个RNN的结构图import tensorflow as tffrom tensorflow.contrib import rnn import input_dataimport numpy as npimport matplotlib.pyplot as pltprint ("Packages imported")mnist ...原创 2018-06-17 15:35:19 · 595 阅读 · 0 评论 -
科比数据集分析及预测
爱篮球,爱人工智能,爱生活。探索性的对科比数据集进行分析import numpy as np import pandas as pd import matplotlib.pyplot as plt%matplotlib inlinefrom sklearn.ensemble import RandomForestClassifierfrom sklearn.cross_validati...原创 2018-06-29 11:28:09 · 4874 阅读 · 3 评论 -
LDA主题模型理论推导(NLP)
如此漂亮的数学推导:原创 2018-06-21 01:58:22 · 1283 阅读 · 0 评论 -
SVM推导
以上是基于周志华老师书上的推导,该推导通俗易懂,在数学层面上已经足够漂亮以上推导略显美中不足的是:如果能加上相关的可视化展示就更漂亮了后面抽时间我会把这一块补上,如有更漂亮的推导方法,请读者联系博主,共同探讨...原创 2018-06-12 20:01:17 · 186 阅读 · 0 评论 -
偏差与方差推导
本文参照周志华老师西瓜书上的推导过程学习心得:周老师书上对于这个推导,数学符号表达太过于漂亮,个人推导学习过程中可简化符号,要清晰的理解各个统计量之间的含义,推动起来就得心应手了...原创 2018-06-12 19:56:26 · 1958 阅读 · 2 评论 -
极大似然估计漂亮的理解示例、直观理解GMM参数估计
原创 2018-06-12 19:49:56 · 1080 阅读 · 0 评论 -
xgboost算法的手写推导
原创 2018-06-12 19:42:57 · 507 阅读 · 0 评论 -
adaboost算法手写实例分析
以上是本人在学习中碰到简单易于理解的实例,能更好的理解adboost算法的思想原创 2018-06-12 19:38:10 · 696 阅读 · 0 评论 -
贝叶斯网络的构建
原创 2018-06-12 19:29:02 · 4091 阅读 · 0 评论 -
PCA和SVD实例对比
通过以上两个例子,我们可以很好的掌握pca和svd到底干了什么事,以及降维到底是怎么回事,下面再系统的概念性的总结下这两者的区别原创 2018-06-12 19:22:39 · 1510 阅读 · 2 评论 -
windows下安装tensorflow
这几天在折腾caffe,caffe的安装着实比tensorflow要麻烦太多,看了很多caffe的安装教程,还是决定先玩玩tensorflow,玩熟tennsorflow再去玩caffe,哈哈,重点是caffe不用写代码,直接在框架里面改就行了,不多说,直接上windows下安装tensorflow:从2015年谷歌将tensorflow开源后,tensorflow一路飙升,几乎快挤占Caffe,...原创 2018-06-13 21:18:31 · 615 阅读 · 0 评论 -
tensorflow常用基本操作
我们在用tensorflow之前应该都熟练运用numpy、pandas等,其实在tensorflow中的一些操作还是跟之前的库的用法差不多的,用老中医的说法就是换汤不换药,下面我们来边用边说:import tensorflow as tf a=3w=tf.Variable([[0.5,1.0]])x=tf.Variable([[2.0],[1.0]])z=tf.matmul(w,x)这上面的三行我...原创 2018-06-14 15:05:56 · 367 阅读 · 0 评论 -
用VGG模型进行测试
import scipy.ioimport numpy as np import os import scipy.misc import matplotlib.pyplot as plt import tensorflow as tfdef _conv_layer(input, weights, bias): conv = tf.nn.conv2d(input, tf.cons...原创 2018-06-16 23:24:47 · 854 阅读 · 0 评论 -
tensorflow中模型的保存与读取
在前面cnn中我们只需要做一些小的修改即可,下面进行模型的保存,直接上代码import numpy as npimport tensorflow as tfimport matplotlib.pyplot as pltimport input_datamnist = input_data.read_data_sets('data/', one_hot=True)trainimg = ...原创 2018-06-16 16:51:07 · 260 阅读 · 0 评论 -
在tensorflow下构建卷积神经网络解决10分类任务
继昨天夜里构建的三层神经网络的惨淡的精确度,接下来构建卷积神经网络去干这个10分类的任务,效果会怎么样呢?还是很棒的import numpy as npimport tensorflow as tfimport matplotlib.pyplot as pltimport input_datamnist = input_data.read_data_sets('data/', one_ho...原创 2018-06-16 14:01:01 · 465 阅读 · 0 评论 -
在tensorflow下构建二层神经网络和三层神经网络解决10分类任务对比
继刚才的逻辑回归解决的十分类任务意犹未尽,分别设计了二层和三层的神经网络对比解决这个10分类问题下面画一个草图代表三层神经网络的计算图:import numpy as npimport tensorflow as tfimport matplotlib.pyplot as pltimport input_datamnist = input_data.read_data_sets('data...原创 2018-06-16 00:15:49 · 1998 阅读 · 0 评论 -
在tensorflow中玩逻辑回归的迭代模型
写流程和代码之前呢,先简单的谈谈在写完线性回归和逻辑回归之后一点小体会,其实这些在tensorflow中玩无非都是一堆东西先定义好(初始化),然后在run一下初始化,接着定义模型的输出和损失函数,通过梯度下降,最小化损失函数,不断的迭代优化,在tensorflow中玩还是比较简单的,都是分模块的,这个是我人为划分的额,不多说,上代码和注释import numpy as npimport tenso...原创 2018-06-15 19:57:31 · 387 阅读 · 0 评论 -
SVM人脸识别分类案例(机器学习)
运用sklearn自带的数据集做一个分类任务from sklearn.datasets import fetch_lfw_peoplefaces = fetch_lfw_people(min_faces_per_person=60)fig, ax = plt.subplots(3, 5)for i, axi in enumerate(ax.flat): axi.imshow(face...原创 2018-06-22 18:06:19 · 4252 阅读 · 0 评论 -
SVM调参(机器学习)
import numpy as npimport matplotlib.pyplot as pltfrom scipy import stats# use seaborn plotting defaultsimport seaborn as sns; sns.set()from sklearn.datasets.samples_generator import make_blobsX...原创 2018-06-22 17:52:03 · 1237 阅读 · 0 评论 -
在tensorflow中构建机器学习的线性模型
我们在机器学习中用数据去拟合线性模型还是比较简单的,那么在tensorflow中怎么拟合呢?其实也是非常简单的在这里,我先构建了1000个数据点,然后用y=wx+b+c的模型去先验的给出这条线,接着把得到的数据放在tensorflow中学习,通过随机梯度下降,最小化损失函数来逼近之前先验给出的这个直线,其中c为设置的干扰项,延缓直线过拟合,下面通过代码来解释。import numpy as npi...原创 2018-06-14 19:02:31 · 236 阅读 · 0 评论 -
Kaggle竞赛销售预测(xgboost)
1.数据抽取2.特征工程3.算法对比4.xgboostimport numpy as npimport pandas as pdpd.set_option('display.max_rows', 500)pd.set_option('display.max_columns', 100)from itertools import productfrom sklearn....原创 2019-05-29 10:32:13 · 2142 阅读 · 5 评论