![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
weixin_39012047
这个作者很懒,什么都没留下…
展开
-
常见数据集网站
一.由简单和通用的数据集开始1.data.gov( https://www.data.gov/ )这是美国政府公开数据的所在地,该站点包含了超过19万的数据点。这些数据集不同于气候、教育、能源、金融和更多领域的数据。2.data.gov.in( https://data.gov.in/ )这是印度政府公开数据的所在地,通过各种行业、气候、医疗保健等来寻找数据,你可以在这里找到一些灵...原创 2018-08-22 09:41:19 · 4484 阅读 · 1 评论 -
ROC/AUC
ROC/AUC作为机器学习的评估指标非常重要,也是面试中经常出现的问题(80%都会问到)。其实,理解它并不是非常难,但是好多朋友都遇到了一个相同的问题,那就是:每次看书的时候都很明白,但回过头就忘了,经常容易将概念弄混。还有的朋友面试之前背下来了,但是一紧张大脑一片空白全忘了,导致回答的很差。我在之前的面试过程中也遇到过类似的问题,我的面试经验是:一般笔试题遇到选择题基本都会考这个率,那个率,...转载 2018-10-22 17:20:59 · 194 阅读 · 0 评论 -
机器学习常用数据集
在机器学习中,寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。 那么用于机器学习的开放数据集有哪些呢?文摘菌给大家推荐一份高质量的数据集,这些数据集或者涵盖范围广泛(比如 Kaggle),或者非常细化(比如自动驾驶汽车的数据)。 首先,在搜索数据集时,在卡内基·梅隆大学有以下说法:数据集不应混乱,因为你不希望花费大量时间清理数据。 数据集不...转载 2018-10-25 13:49:36 · 1218 阅读 · 0 评论 -
AI 从业者都应该知道的实验数据集
雷锋网AI 科技评论按:数据集对于深度学习模型的重要性不言而喻,然而根据性质、类型、领域的不同,数据集往往散落在不同的资源平台里,急需人们做出整理。fast.ai近期将这些重要的数据集汇总到了一篇文章里,雷锋网 AI 科技评论把文章编译如下。少了数据,我们的机器学习和深度学习模型什么也干不了。这么说吧,那些创建了数据集、让我们可以训练模型的人,都是我们的英雄,虽然这些人常常并没有得到足够的感谢...转载 2018-11-01 10:28:03 · 728 阅读 · 0 评论 -
理解GloVe模型(Global vectors for word representation)
原文:https://blog.csdn.net/coderTC/article/details/73864097理解GloVe模型概述模型目标:进行词的向量化表示,使得向量之间尽可能多地蕴含语义和语法的信息。输入:语料库输出:词向量方法概述:首先基于语料库构建词的共现矩阵,然后基于共现矩阵和GloVe模型学习词向量。开始统计共现矩阵训练词向量结束统计共现矩阵设共现矩阵为...转载 2018-11-09 15:07:18 · 502 阅读 · 0 评论 -
Building Fast and Compact Convolutional Neural Networks for Offline HCCR
--pattern recognition 2017 代码:https://github.com/zwt0204/HCCR-HWDB-tensorflow摘要:像其他的计算机视觉技术一样,离线的手写文字识别使用CNN方法取得了很好的效果。但是需要非常复杂的网络才可以取得较好的效果。这样的网络直观地看起来计算成本过高,并且需要存储大量参数,这使得它们在便携式设备中部署是不可行的。为了解决...原创 2018-11-07 13:03:35 · 2478 阅读 · 10 评论 -
Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation
摘要:在本文中,我们提出了一种新的神经网络模型,称为RNN编码器 - 解码器,由两个递归神经网络(RNN)组成。一个RNN编码器将特征编码为一个固定长度的向量,另一个解码器解码这个向量为另一个符号序列。联合训练所提出的模型的编码器和解码器以最大化给定源序列的目标序列的条件概率。通过使用由RNN编码器 - 解码器计算的短语对的条件概率作为现有对数线性模型中的附加特征,相较于统计机器翻译系统的性能得到...原创 2018-11-16 14:29:05 · 895 阅读 · 0 评论 -
机器学习100天(1)
# Step 1: Importing the librariesimport numpy as npimport pandas as pd# Step 2: Importing dataset# 读入数据dataset = pd.read_csv('../datasets/Data.csv')# 取数据的前三列为X, 最后一列为Y# iloc[:]:前表示取行,后表示取列# ...原创 2018-12-27 14:00:32 · 204 阅读 · 0 评论 -
sklearn实现精确率召回率
# 构建混淆矩阵from sklearn.metrics import confusion_matrixconfusion_matrix(y_test_labels, y_pred_labels)# 精准率与召回率from sklearn.metrics import precision_score, recall_scoreprint(precision_score(y_test_...原创 2018-09-19 13:42:14 · 3585 阅读 · 0 评论 -
正则化方法:L1和L2 regularization、数据集扩增、dropout
正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集,对训练集外的数据却不work。为了防止overfitting,可以...转载 2018-08-22 11:21:41 · 94 阅读 · 0 评论 -
Batch_size+epochs+iterations
为什么需要Batch_size:其决定了梯度下降的方向.注意在数据集比较小的时候采用全数据集(全数据集可以更好的代表样本总体,更精准的朝着极值方向.由于不同权重的结果差异比较大,所以在全局的学习率的选择上比较困难,FULL Batch Learning可以使用Rprop只基于梯度符号并且针对性单独更新各权值)Batch_size=1时就是在线学习Mini-batches Learnin...原创 2018-08-21 13:45:54 · 239 阅读 · 0 评论 -
bi-lstm+crf
1.RNN(输入 隐含 输出)主要用于序列数据的处理,传统的神经网络模型,层与层之间是全连接的,每一层的节点是无连接的.其局限性太强,比如,在预测句子中的下一个单词时,因为句子中的单词不是独立的,所以传统的神经网络模型无能为力.RNN具有记忆功能,可以保存网络的内部状态并应用于当前的输出的计算中,也就是隐含层之间的节点不再是无连接的而是有 连接的,并且隐含层的输入不仅包含输入层的输出还包含上一...原创 2018-08-21 16:03:13 · 4653 阅读 · 0 评论 -
交叉熵与softmax
交叉熵:交叉熵刻画的是实际输出(概率)与期望输出(概率)的距离,也就是交叉熵的值越小,两个概率分布就越接近。假设概率分布p为期望输出,概率分布q为实际输出,H(p,q)为交叉熵,则:另一种形式:softmax:神经网络的原始输出不是一个概率值,实质上只是输入的数值做了复杂的加权和与非线性处理之后的一个值而已,Softmax层将其处理为概率输出。假设神经网络的原始输出为y1,...原创 2018-08-24 16:17:00 · 1036 阅读 · 0 评论 -
马尔科夫链、主成分分析以及条件概率
马尔科夫链是指数学中具有马尔科夫性质的离散事件随机过程。在其每一步中,系统根据概率分布可以从一个状态变到另一个状态,也可以保持当前状态。状态的改变叫做转移,与不同的状态改变相关的概率叫做转移概率。⑴设 是一个随机过程,如果在 在 时刻所处的状态为已知时, 以后的状态与它在时刻 之前所处的状态无关,则称具有马尔可夫性。 ⑵设 的状态空间为 ,如果对于任意的 ,任意的 ,...原创 2018-08-21 20:24:43 · 1722 阅读 · 0 评论 -
CNN
1. Convolutional layer(卷积层--CONV)由滤波器filters和激活函数构成。 一般要设置的超参数包括filters的数量、大小、步长,以及padding是“valid”还是“same”。当然,还包括选择什么激活函数。2. Pooling layer (池化层--POOL)这里里面没有参数需要我们学习,因为这里里面的参数都是我们设置好了,要么是Maxpooli...原创 2018-08-21 21:44:56 · 280 阅读 · 0 评论 -
机器学习常见算法
1. 线性回归线性回归可能是统计学和机器学习中最知名和最易理解的算法之一。由于预测建模主要关注最小化模型的误差,或者以可解释性为代价来做出最准确的预测。 我们会从许多不同领域借用、重用和盗用算法,其中涉及一些统计学知识。线性回归用一个等式表示,通过找到输入变量的特定权重(B),来描述输入变量(x)与输出变量(y)之间的线性关系。 Linear Regression举例:...原创 2018-08-21 21:47:27 · 14750 阅读 · 1 评论 -
机器学习100天(2)
# Data Preprocessingimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltdataset = pd.read_csv('../datasets/studentscores.csv')# 取第一列为xX = dataset.iloc[:, :1].values# 取第二列为yY...原创 2018-12-28 14:42:37 · 289 阅读 · 0 评论