机器学习
文章平均质量分 70
youminglan
欢迎浏览我的文章,如果对你有帮助,欢迎关注+点赞+收藏。
展开
-
使用wget下载出现Unable to establish SSL connection问题的解决方案
报错:原因:部分网站不允许非浏览器方式下载文件解决方案:在wget语句后添加以下参数1--no-check-certificate1wget https://dl.fbaipublicfiles.com/pythia/pretrained_models/textvqa/lorra_best.pth --no-check-certificate完美解决!...原创 2021-12-03 21:19:44 · 1388 阅读 · 0 评论 -
k-近邻算法详解
k-近邻算法k-近邻算法采用测量不同特征值之间的距离方法进行分类优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和标称型。工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近原创 2020-10-16 09:32:20 · 3527 阅读 · 0 评论 -
使用RNN进行中文文本分类(酒店评论)
首先导入必要的库import numpy as npimport reimport jiebaimport osimport matplotlib.pyplot as plt%matplotlib inlineimport tensorflow as tffrom tensorflow import keras数据文件https://pan.baidu.com/s/15_VGw2g3y6_q537USDuH3A提取码: gb9k查看下载的数据集我们把数据text 和labe原创 2021-01-09 21:25:15 · 2961 阅读 · 3 评论 -
NLP/常用数据集简介
概述数据和算法在NLP中都非常重要,使用公开的数据集可以帮助我们快速学习NLP相关知识并实践,下面我们将介绍常用的几个数据集。搜狗实验室数据搜狗实验室(Sogo Labs)是搜狗搜索核心研发团队对外交流的窗口,包含数据资源、数据挖掘云、研究合作等几个栏目。数据资源包括评测集合、语料数据、新闻数据、图片数据和自然语言处理相关数据,网址为:http://www.sogou.com/labs/resource/list_pingce.php互联网语料库(SogouT)SogouT来自互联网各种类转载 2021-03-07 14:50:43 · 4979 阅读 · 0 评论 -
Jupyter notebook:使用argparse包报错与解决方法
在使用Jupyter notebook时发现错误:ipykernel_launcher.py: error: unrecognized arguments: -f /root/.local/share/jupyter/runtime/kernel-c6345bc7-a68a-49c3-a14e-d696cfac4c23.jsonAn exception has occurred, use %tb to see the full traceback.发现错误出在:opt = parser.par原创 2021-04-17 16:14:17 · 978 阅读 · 2 评论 -
非常详细的GAN(生成对抗网络)原理解读
GAN什么是生成?生成就是模型通过学习一些数据,然后生成类似的数据GAN原理GAN是如何生成图片?GAN有两个网络,一个是generator(生成图片的网络),还有一个是discriminator(判别网络)。在我们训练过程当中,生成网络G的目标就是尽量生成真实的图片去"欺骗"网络D。网络D的目标就是区分生成的图片与真实的图片。这样就构成的一个"博弈过程"。在最理想的情况下,G可以生成足以“以假乱真”的图片G(z)。对于D来说,它难以判定G生成的图片究竟是不是真实的,因此D(G(z)原创 2021-04-11 18:17:47 · 2252 阅读 · 0 评论 -
机器学习中的七大损失函数详细解读(附代码实现)
什么是损失函数?例子:假设你在山顶,需要下山。你如何决定走哪个方向?我要做的事情如下:环顾四周,看看所有可能的路径拒绝那些上升的路径。这是因为这些路径实际上会消耗更多的体力并使下山任务变得更加艰难最后,走我认为的坡度最大的路径关于我判断我的决策是否好坏的直觉,这正是损失函数能够提供的功能。损失函数将决策映射到其相关成本。决定走上坡的路径将耗费我们的体力和时间。决定走下坡的路径将使我们受益。因此,下坡的成本是更小的。损失函数:在有监督的机器学习算法中,我们希望在学习过程中最小化每个原创 2021-04-27 15:39:09 · 3237 阅读 · 0 评论 -
Pycharm如何生成requirements.txt文件
如何生成requirements.txt文件用途python项目中必须包含一个 requirements.txt 文件,用于记录所有依赖包及其精确的版本号。以便新环境部署。一、生成requirement依赖pip freeze > requirements.txt二、安装requirement依赖pip install -r requirements.txt三、注意事项上述这种生成方式,会将环境中的依赖包全都加入,如果使用的全局环境,则下载的所有包都会在里面,不管是不时当前项目依赖原创 2021-08-22 17:45:18 · 9510 阅读 · 0 评论 -
详解Word2vec
详解Word2vec一、Wordvec 介绍篇1.1 Wordvec 指什么?介绍:word2vec是一个把词语转化为对应向量的形式。word2vec中建模并不是最终的目的,其目的是获取建模的参数,这个过程称为fake task。双剑客CBOW vs Skip-gram1.2 Wordvec 中 CBOW 指什么?CBOW思想:用周围词预测中心词输入输出介绍:输入是某一个特征词的上下文相关的词对应的词向量,而输出就是这特定的一个词的词向量1.3 Wordvec 中原创 2021-08-03 14:30:03 · 1749 阅读 · 0 评论 -
详解Tensor用法
Tensor的操作张量的数据属性与 NumPy 数组类似,如下所示:张量的操作主要包括张量的结构操作和张量的数学运算操作。Tensor的结构操作包括:创建张量,查看属性,修改形状,指定设备,数据转换, 索引切片,广播机制,元素操作,归并操作;Tensor的数学运算包括:标量运算,向量运算,矩阵操作,比较操作。未完待续。。。...原创 2021-07-24 19:04:58 · 8823 阅读 · 2 评论 -
VQA论文汇总
Awesome Text VQAText related VQA is a fine-grained direction of the VQA task, which only focuses on the question that requires to read the textual content shown in the input image.DatasetsVisualMRC dataset (AAAI 2021) [Project][Paper]EST-VQA dataset (原创 2021-07-24 19:02:30 · 778 阅读 · 0 评论 -
NLP概念:词袋模型(BOW)和词向量模型(Word Embedding)介绍
例句:James wants to go to Shenzhen.Bill wants to go to Shanghai.一、词袋模型所谓词袋,就是将所有词语装进一个"袋子"里,不考虑其词法和语序的问题,即每个词语都是独立的。例如上面2个例句,就可以构成一个词袋,袋子里包括James、wants、to、go、Shenzhen、Bill、Shanghai。假设建立一个数组(或词典)用于映射匹配。1 [Jane, wants, to, go, Shenzhen, Bob, Shanghai]那原创 2021-01-30 14:43:46 · 1535 阅读 · 0 评论 -
手把手教你使用Pytorch实现MNIST手写数字识别
MNIST 数据集 mnist 数据集是一个非常出名的数据集,基本上很多网络都将其作为一个测试的标准,其来自美国国家标准与技术研究所, National Institute of Standards and Technology (NIST)。 训练集 (training set) 由来自 250 个不同人手写的数字构成, 其中 50% 是高中学生, 50% 来自人口普查局 (the Census Bureau) 的工作人员,一共有 60000 张图片。 测试集(test set) 也是同样比例的手写数原创 2021-04-14 11:14:35 · 2199 阅读 · 5 评论 -
详细解读深度学习中的 “残差网络“
残差网络什么是残差:残差在数理统计中是指实际观察值与估计值(拟合值)之间的差更准确地,假设我们想要找一个 xxx,使得 f(x)=bf(x)=bf(x)=b,给定一个 xxx 的估计值 x0x0x0,残差(residual)就是 b−f(x0)b−f(x0)b−f(x0),同时,误差就是 x−x0x−x0x−x0。什么是残差网络:随着网络越来越深,训练变得原来越难,网络的优化变得越来越难。理论上,越深的网络,效果应该更好;但实际上,由于训练难度,过深的网络会产生退化问题,效果反而不如相对原创 2021-05-10 17:01:03 · 3030 阅读 · 0 评论 -
基于机器学习的数据分析(泰坦尼克数据集)
基于机器学习的泰坦尼克数据集数据分析数据集以及ipynb文件放在了我的GitHub上面:欢迎自取泰坦尼克数据集任务:预测泰坦尼克乘客生存概率数据集:train.csv、test.csv训练集应用于构建您的机器学习模型。 对于训练集,我们为每位乘客提供结果(也称为“特征”)。 您的模型将基于乘客的性别和阶级等“特征”。 您还可以使用特征工程来创建新特征应该使用测试集来查看您的模型在看不见的数据上的表现如何。 对于测试集,我们不提供每位乘客的基本情况。 预测这些结果是您的工作。 对于测试集中原创 2021-05-24 13:26:26 · 1382 阅读 · 0 评论 -
CCF大赛:电商用户购买行为预测 解决方案
电商用户购买行为预测比赛介绍互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但是网上信息量的大幅增长也带来了“信息过载”的问题。这使得用户在面对大量信息时无法从中获得对自己真正有用的信息,导致用户对信息的使用效率大大降低了。为了帮助用户更快速地过滤出有用的信息,需要依据真实的用户购买行为记录,利用机器学习相关技术建立稳健的电商用户购买行为预测模型。意义用于预测用户的下一个行为,以此为用户进行商品的推荐,准确捕获用户的购买兴趣,提高电商平台商品的购买率提升购物体验,促原创 2021-05-18 23:35:52 · 5713 阅读 · 5 评论 -
特征归一化详解
特征归一化场景描述:分析一个人的身高和体重对健康的影响,如果使用米和千克作为单位,那么身高特征就会在1.6 - 1.8m这样一个范围内,体重会在50 - 100kg的范围内,分析出来的结果显然会倾向于数值差别比较大的体重特征。如果想要得到更为精确的结果,就需要进行特征归一化处理。问题:为什么需要对数值类型的特征做归一化?因为可以通过对特征做归一化将所有特征都统一到一个大致相同的数值区间内。借助随机梯度下降的例子说明归一化的重要性。假设有两种数值型特征,X1X_{1}X1的取值范围为 [0,原创 2021-05-16 11:14:24 · 514 阅读 · 0 评论