数据
文章平均质量分 89
烟雨风渡
研究生
展开
-
特征选择方法体系
特征选择(Feature Selection)的机器学习中的一项基本任务,其被定义为从可用的特征集合中选择出有意义的特征子集,从而简化机器学习问题。特征选择方法一般分为以下三类:基于封装的方法(Wrapper Methods) 基于过滤的方法(Filter Methods) 基于嵌入的方法(Embedded Methods)1、基于封装的方法(Wrapper Methods)Wrapper methods evaluate subsets of features by training a m原创 2021-03-10 19:52:26 · 718 阅读 · 0 评论 -
python使用t检验和F检验验证模型好坏
要在某个指标上对比两个模型的好坏,我们可以直接进行比较,同时为了使比较结果更具说服力,我们可以使用统计检验的方法,即将两个模型分别跑k次,使用t检验比较这两组k个样本的均值、使用F检验比较这两组k个样本的方差,均值越大、方差越小说明在当前指标上该模型更好更稳定(这里说的指标是正向指标)。那么下面我们以具体代码来进行说明。from scipy.stats import ttest_rel, fimport numpy as npx = [44.2, 36.1, 46.5, 40.7, 61.6,原创 2020-09-06 17:24:21 · 11856 阅读 · 1 评论 -
Python检验样本是否服从正态分布
在进行t检验、F检验之前,我们往往要求样本大致服从正态分布,下面介绍两种检验样本是否服从正态分布的方法。1 可视化我们可以通过将样本可视化,看一下样本的概率密度是否是正态分布来初步判断样本是否服从正态分布。代码如下:import numpy as npimport pandas as pdimport matplotlib.pyplot as plt# 使用pandas和numpy生成一组仿真数据s = pd.DataFrame(np.random.randn(500),colu原创 2020-09-06 16:41:10 · 17529 阅读 · 0 评论 -
python返回列表中特定元素对应的索引
在使用列表这一数据结构进行数据分析时,我们会经常遇到需要返回列表中特定元素对应的所有索引的情况。我们可能会首先想到可以使用index函数返回元素索引,看一下效果:a = [1, 2, 3, 4, 2, 1]print(a.index(2))结果为:1可以看到,使用index函数返回的只有一个索引,而列表a中有两个2,应该返回两个索引才对,我们看一下index函数具体细节:可以看到,index函数只返回命中元素的第一个索引,而且该函数也没有参数让我们实现返回多个索引的效果。我们进原创 2020-08-14 10:46:27 · 23746 阅读 · 1 评论 -
python对列表元素排序并返回元素索引序列
在信息检索或top-n推荐中,我们会为用户推荐一个有序推荐列表,这里的“有序”体现在列表中前面的产品相比于列表后面的产品被算法预测为更容易被用户选择,这要求我们按每个产品出现的概率对产品进行排序。可以参考以下示例:# 按列表a中元素的值进行排序,并返回元素对应索引序列a = [1, 3, 4, 5, 2, 7, 9]print('a:', a)sorted_id = sorted(range(len(a)), key=lambda k: a[k], reverse=True)print('元素原创 2020-08-11 20:33:10 · 43010 阅读 · 7 评论 -
python获取某个文件夹中所有文件名
获取某个文件夹下的所有文件名 我们如何使用python获取以下文件夹中的所有文件名? 使用以下python语句即可:file_dir = "F:/ant"for root, dirs, files in os.walk(file_dir, topdown=False): print(root) # 当前目录路径 print(dirs) # 当前目录下所有子目录 print(files) # 当前路径下所有非目录子文件 效果如下:原创 2020-07-20 11:23:10 · 27860 阅读 · 1 评论 -
如何读取.npy文件以及如何将数组保存为图片
1 如何读取.npy文件 .npy文件是numpy专用的二进制文件,可以使用以下Python语句读取。import numpy as npdata = np.load('1448291769966919811.npy')print("type:", type(data))print("shape:", data.shape)print("data:", data) 效果如下图所示:2 如何将数组保存为图片 使用以下Python语句将数组保存为图片:import numpy a原创 2020-07-16 19:33:56 · 4678 阅读 · 0 评论 -
pytorch框架中的两种常用乘法
在使用pytorch框架复现模型的时候,我们需要再forward()函数中定义模型的逻辑,这时就要对模型参数使用一些运算,这里简单介绍一下pytorch框架下的两种常用的乘法运算。1 按元素乘 按元素乘,即张量的对应元素相乘,将每个位置上相乘的结果作为返回值,使用“*”实现。看一下例子:import torcha = torch.Tensor([[1...原创 2019-08-12 08:37:46 · 4118 阅读 · 0 评论 -
PyTorch框架下自定义层和自定义模型
PyTorch是一款简洁且高效的深度学习框架,目前在学术界被广泛使用。 和TensorFlow、Keras等框架一样,PyTorch框架下集成了一些常用的神经网络模型,如卷积神经网络、循环神经网络、全连接神经网络等,我们可以很方便地调用这些模型解决自己的问题。但是,当我们需要尝试用一些新的模型结构来解决自己的问题时,这些框架内置的模型就不行了,这时我们需要自己在P...原创 2019-07-11 11:13:02 · 12328 阅读 · 6 评论 -
端到端(end-to-end)学习
。 本博客仅供学术交流之用,如有侵权,请联系我,我将删除,谢谢大家。 最近在读复旦大学邱锡鹏老师写的《神经网络与深度学习》,在其中找到了之前不理解的一些概念的解释,以“端到端”为例。现摘录原文如下: 在一些复杂任务中,传统机器学习方法需要将一个任务的输入和输出之间人为地切割成很多子...原创 2018-12-10 19:05:23 · 2490 阅读 · 0 评论 -
t-SNE算法的基本思想及其Python实现
     &a原创 2018-12-14 09:29:00 · 28573 阅读 · 9 评论 -
中文停用词表和英文停用词表
最近在做一些基本的中英文NLP任务,其中在过滤掉文本中的特殊字符、对文本进行分词之后,要去除文本中的停用词,所以从网上找了两个中英文的停用词表,传到博客里方便以后使用。中文分词列表链接:https://pan.baidu.com/s/1MQOI_cG3jn-g-MhrZQoFrQ 提取码:dno0...原创 2018-11-23 16:38:04 · 4955 阅读 · 0 评论 -
文章分享:Context-aware Academic Collaborator Recommendation
分享一篇关于学术合作者推荐的文章:Context-aware Academic Collaborator Recommendation, 这篇文章将Context-aware Recommendation应用到Academic Data Mining中,提出了一个新问题Context-aware Aca...原创 2018-10-08 11:23:32 · 1098 阅读 · 7 评论