41 学术科研
It_BeeCoder
这个作者很懒,什么都没留下…
展开
-
如何高效的阅读学术论文
1.引言科研人员必须阅读论文的几个理由:为了会议或者学生审稿、为了在本领域中保持消息灵通、为了解新领域进行文献调研。一个典型的科研人员每年可能要花费几百小时去阅读论文。学会有效地阅读论文是一项非常重要但是很少会有机会学到的技能。正因为这样,新入学的研究生都是在“试验——失败”中独自学习的。学生们会因此浪费大量的时间,并且会经常因此感到沮丧。多年来,我一直使用一个简单的“三步法”来使我在读论文时能对...转载 2018-06-22 17:23:44 · 987 阅读 · 0 评论 -
R语言与直方图与核密度图
如果想要研究某一变量的分布情况,则需要使用直方图和密度曲线图。函数hist(x,breaks=,)绘制直方图。x:是由一个数据值组成的数值向量breaks:用于控制组的数量,breaks=seq(220,280,3)从220开始到280,间隔为3freq=FALSE:控制y轴,使其变为密度rug(jitter(mtcar$mpg)):轴须图代码:hist(...转载 2018-10-06 20:09:02 · 7076 阅读 · 0 评论 -
第六篇:R语言数据可视化之数据分布图(直方图、密度曲线、箱线图、等高线、2D密度图)
阅读目录数据分布图简介 绘制基本直方图 基于分组的直方图 绘制密度曲线 绘制基本箱线图 往箱线图添加槽口和均值 绘制2D等高线 绘制2D密度图 数据分布图简介 中医上讲看病四诊法为:望闻问切。而数据分析师分析数据的过程也有点相似,我们需要望:看看数据长什么样;闻:仔细分析数据是否合理;问:针对前两步工作搜集到的问题与业务方交流;切:结合业务方反馈的结果和项...转载 2018-10-16 16:24:21 · 16718 阅读 · 0 评论 -
【R 语言 可视化】在直方图上面添加密度曲线
rm(list=ls())gc()set.seed(1234)score <- rnorm(n = 1000, m = 80, sd = 20)hist(score, freq=FALSE, xlab="Score", main="Distribution of score", col="lightgreen", xl...转载 2018-10-16 16:29:17 · 8170 阅读 · 0 评论 -
R-时间序列-分解季节性时间序列
1.季节性时间序列包含:长期趋势Trend,季节趋势Seasonal,周期循环Circle,随机项Random这里分解为相加模型X=T+S+C+R 在对时间序列进行分解之前,应该对序列进行检验:(下次写)2.decompose()函数将时间序列进行上述分解3.R分解操作过程3.1数据读入与可视化>#以纽约市月出生数量(1946.1-1959.12)的数据...转载 2018-10-16 17:06:08 · 9331 阅读 · 0 评论 -
时间序列 R 07 时间序列分解 Time series decomposition
一个时间序列可以分解为多个模型的组合1.1 时间序列的组成1.1.1 时间序列组成模式三种时间序列模式(不计剩余残差部分) 1. 趋势Tend :比如线性趋势,先增加后降低的整体趋势 2. 季节性Seasonal :以时间为固定周期,呈现循环的特性 3. 周期性Cyclic:在以不固定周期不断震荡,通常周期性至少持续2年 下图就是讲时间序列分解之后的结果,应该比较容易理解上面的...转载 2018-10-16 17:08:03 · 2808 阅读 · 1 评论 -
时间序列分解-STL分解法
STL(’Seasonal and Trend decomposition using Loess‘ )是以鲁棒局部加权回归作为平滑方法的时间序列分解方法。 其中Loess(locally weighted scatterplot smoothing,LOWESS or LOESS)为局部多项式回归拟合,是对两维散点图进行平滑的常用方法,它结合了传统线性回归...转载 2018-10-16 17:09:28 · 12111 阅读 · 6 评论 -
九月十月百度,迅雷,华为,阿里巴巴笔试面试六十题(第411~470题)
题记 本博客自2010年10月11日开通以来,已经帮助了一大批人找到工作,特别是连续三年在每一年的9、10月份陪伴了至少三届毕业生找工作的旅程,包括校招中的笔试面试,今年也不会例外,我会在本博客开通3周年之际一如既往的陪伴大家一起成长。 本文所整理的全部笔试面试题要么来源于我群内群友们的分享,要么摘自论坛或博客,所有原题均来自网络。虽然本文中整理的绝大部分笔试面试题偏算法(自己特意为之...转载 2018-06-23 19:39:54 · 479 阅读 · 0 评论 -
教你如何迅速秒杀掉:99%的海量数据处理面试题
本文经过大量细致的优化后,收录于我的新书《编程之法:面试和算法心得》第六章中,新书目前已上架京东/当当前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名 :-),同时,此文可以看做是对这篇文章:十道海量数据处理面试题与十个方法大总结的一般抽象性总结。 毕竟受文章和理论...转载 2018-06-23 19:44:48 · 217 阅读 · 0 评论 -
决策树、随机森林简单原理和实现
一:概念决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策数有两大优点:1)决策树模型可以读性好,具有描述性,有助于人工分析;2)效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。看了一遍概念后,我们先从一个简单的案例开始,如下图我们样本:对于上面的样本数据,根据不同特征值我们最后是选择...转载 2018-06-09 20:53:52 · 1569 阅读 · 0 评论 -
Weka里面各种分类器的使用(Java)
1.配置MyEclipse2013+Weka3.6+libsvm3.18+Jdk1.7+Win8.12.小Tips1). Java使用Weka实现:将安装文件夹里的weka.jar加入项目编译路径中2). CSV文件可以转换成Arff文件实现:运行Weka的Explorer界面,打开csv文件,保存为arff文件。注意:如果有训练集和测试集,将训练集的Arff文件的标签头复制到测试集的Arff文件...转载 2018-06-17 16:49:25 · 2827 阅读 · 0 评论 -
使用Eclipse把java文件打包成jar
在开发的过程中,有很多工程都用到同样的方法,此时把经常使用到的工具类打成jar包,使用起来就更方便了,在网上找了很多种方法,没有找到很清淅的,所以就把自己的经验记录下来,希望可以帮助到需要的朋友一、在需要导出的包上右键,选择“Export”二、如果没有包含main函数选择“JAR file”,如果包含了main函数就选择“Runable JAR file”,这里只讲"JAR file",选中“JA...转载 2018-06-17 17:29:00 · 1390 阅读 · 0 评论 -
Java调用weka.jar利用交叉验证方法进行分类
一直是用weka的explorer进行分类,但是现在需要重复实验100次,人工肯定搞不定了,所以试着写代码调用weka.jar来实现之前的方法。首先不知道怎么调用J48方法,之后又不知道怎么实现交叉验证方法,后面又不知道怎么进行评价,其实,weka.jar都给实现了,只管简单调用就行。也就是说explorer能实现的weka.jar都能实现,关键是去查看帮助文档和源代码,知道是哪个方法实现了哪个功...转载 2018-06-26 16:08:27 · 615 阅读 · 0 评论 -
一维高斯混合模型EM算法实现
https://blog.csdn.net/u012436149/article/details/53557008# -*- coding: utf-8 -*-# for multi-Gaussian__author__ = "KeithYin"import numpy as npdef gaussian(x,mu,sigma): temp = -np.square(x-m...转载 2018-10-19 11:50:58 · 1272 阅读 · 0 评论 -
机器学习笔记(十)EM算法及实践(以混合高斯模型(GMM)为例来次完整的EM)
今天要来讨论的是EM算法。第一眼看到EM我就想到了我大枫哥,EM Master,千里马,RUA!!!不知道看这个博客的人有没有懂这个梗的。好的,言归正传,今天要讲的EM算法,全称是Expectation maximization,期望最大化。怎么个意思呢,就是给你一堆观测样本,让你给出这个模型的参数估计。我靠,这套路我们前面讨论各种回归的时候不是已经用烂了吗?求期望,求对数期望,求导为0,得...转载 2018-10-21 19:25:51 · 592 阅读 · 0 评论 -
ROC曲线及AUC
ROC曲线意义ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve),是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在...转载 2018-12-07 10:39:34 · 980 阅读 · 0 评论 -
ROC和AUC介绍以及如何计算AUC
ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如何作出ROC曲线图以及计算AUC。ROC曲线需要提前说明的是,我们这里只讨论二值分类器。对于分类器,或者说分类算法,评价指标主要有precis...转载 2018-12-14 17:09:03 · 257 阅读 · 0 评论 -
matlab标准化和反标准化——zscore
先说一下一个小疑问:目前所了解的归一化概念有点模棱两可,目前可能有三种理解假设矩阵A大小n*m,n代表样本数,m代表每一个样本的维度①单独对每一列(全部样本的同一个属性)进行归一化②单独对每一行(一个样本的所有的属性)进行归一化③对整个矩阵A进行归一化这三个理解都能达到所有数据变换到[0,1]的效果。然后,正确的答案是:归一化是针对相同维度进行的,即①的理解。但是...转载 2018-12-11 15:30:52 · 2188 阅读 · 0 评论 -
数据标准化方法z-score讲解(matlab)
在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。z-score 标准化(正太标准化)是基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x’。在matlab中,我们可以直接利用zscore(x)这个函数来将数据标准化。其核心思想是:z=(x...转载 2018-12-11 15:32:15 · 9268 阅读 · 0 评论 -
【深度学习图像识别课程】keras实现CNN系列:(4)MLP/CNN实现CIFAR-10图像分类
一、卷积层、池化层的一般设置1、卷积层滤波器数量逐渐增加,kernel_size范围2*2~5*5,一般设置为2*2,strides设置为1, padding='same',并在最后添加Relu激活。如果对于第一层,还要增加input_shape。深度从输入层的3,变成16,再到32,再到64,维度越来越大。深度要更深,于是我们考虑减少宽度、高度。from keras....转载 2018-12-25 16:13:23 · 1385 阅读 · 0 评论 -
深入浅出 TensorFlow(六)TensorFlow 高层封装
2017 年 2 月 16 日,Google 正式对外发布 Google TensorFlow 1.0 版本,并保证本次的发布版本 API 接口完全满足生产环境稳定性要求。这是 TensorFlow 的一个重要里程碑,标志着它可以正式在生产环境放心使用。在国内,从 InfoQ 的判断来看,TensorFlow 仍处于创新传播曲线的创新者使用阶段,大部分人对于 TensorFlow 还缺乏了解...转载 2018-12-25 16:14:35 · 524 阅读 · 0 评论 -
tensorflow和kears的data_format数据格式问题详解
DATA_FORMAT这是一个无可奈何的问题,在如何表示一组彩色图片的问题上,Theano和TensorFlow发生了分歧, '日'模式,也即Theano模式会把100张RGB三通道的16×32(高为16宽为32)彩色图表示为下面这种形式(100,3,16,32),Caffe采取的也是这种方式。第0个维度是样本维,代表样本的数目,第1个维度是通道维,代表颜色通道数。后面两个就是高和宽了。这种t...转载 2018-12-25 17:04:58 · 890 阅读 · 1 评论 -
用“Keras”11行代码构建CNN
摘要: 还在苦恼如何写自己的CNN网络?看更多深度文章,请关注:https://yq.aliyun.com/clou大神如何使用keras11行代码构建CNN网络,有源码提供。我曾经演示过如何使用TensorFlow创建卷积神经网络(CNN)来对MNIST手写数字数据集进行分类。TensorFlow是一款精湛的工具,具有强大的功能和灵活性。然而,对于快速原型制作工作,可能显得有些麻烦。Kera...转载 2018-12-25 17:06:24 · 211 阅读 · 0 评论 -
Keras中Conv1D和Conv2D的区别
我的答案是,在Conv2D输入通道为1的情况下,二者是没有区别或者说是可以相互转化的。首先,二者调用的最后的代码都是后端代码(以TensorFlow为例,在tensorflow_backend.py里面可以找到):x = tf.nn.convolution( input=x, filter=kernel, dilation_rate=(d...转载 2018-12-25 17:07:16 · 2620 阅读 · 0 评论 -
【深度学习】keras + tensorflow 实现猫和狗图像分类
本文主要是使用【监督学习】实现一个图像分类器,目的是识别图片是猫还是狗。从【数据预处理】到 【图片预测】实现一个完整的流程, 当然这个分类在 Kaggle 上已经有人用【迁移学习】(VGG,Resnet)做过了,迁移学习我就不说了,我自己用 Keras + Tensorflow 完整的实现了一遍。准备工作:数据集: Dogs vs. Cats 注册激活困难,自己想想办法,Ps:实在注...转载 2018-12-25 17:08:46 · 3319 阅读 · 3 评论 -
weka使用教程3--对分类结果进行分析
1 SummaryCorrectly Classified Instances :正确分类的实例Incorrectly Classified Instances :错误分类的实例Kappa statistic:就是假设有两个相互独立的人分别将N个物品分成C个相互独立的类别,如果双方结果完全一致则K值为1,反之K值为0; Mean absolute error :就是把N次实验的绝对误差求...转载 2018-12-07 10:20:01 · 2573 阅读 · 0 评论 -
ROC曲线详解及matlab绘图实例
有关ROC曲线的内容转自wiki:https://zh.wikipedia.org/wiki/ROC%E6%9B%B2%E7%BA%BF,版权归原作所有在信号检测理论中,接收者操作特征曲线(receiver operating characteristic curve,或者叫ROC曲线)是一种坐标图式的分析工具,用于 (1) 选择最佳的信号侦测模型、舍弃次佳的模型。 (2) 在同一模型中...转载 2018-12-07 10:03:54 · 1698 阅读 · 0 评论 -
EM算法实例通俗讲解
如果使用基于最大似然估计的模型,模型中存在隐变量,就要用EM算法做参数估计。个人认为,理解EM算法背后的idea,远比看懂它的数学推导重要。idea会让你有一个直观的感受,从而明白算法的合理性,数学推导只是将这种合理性用更加严谨的语言表达出来而已。打个比方,一个梨很甜,用数学的语言可以表述为糖分含量90%,但只有亲自咬一口,你才能真正感觉到这个梨有多甜,也才能真正理解数学上的90%的糖分究...转载 2018-10-21 19:56:13 · 585 阅读 · 0 评论 -
EM算法 实例讲解
第一次接触EM算法,是在完成半隐马尔科夫算法大作业时。我先在网上下载了两份Baum-Welch算法的代码,通过复制粘贴,修修补补,用java实现了HMM算法(应用是韦小宝掷两种骰子的问题)。然后,参考有关半隐马尔科夫算法的论文,照着论文中的公式修改隐马尔科夫算法,完成了大作业。现在回想起来,就隐隐约约记得有一大堆公式。最近,我看到一篇很好的文章,对EM算法的计算有了进一步的了...转载 2018-10-21 19:57:12 · 1684 阅读 · 0 评论 -
【机器学习】EM算法详细推导和讲解
今天不太想学习,炒个冷饭,讲讲机器学习十大算法里有名的EM算法,文章里面有些个人理解,如有错漏,还请读者不吝赐教。 众所周知,极大似然估计是一种应用很广泛的参数估计方法。例如我手头有一些东北人的身高的数据,又知道身高的概率模型是高斯分布,那么利用极大化似然函数的方法可以估计出高斯分布的两个参数,均值和方差。这个方法基本上所有概率课本上都会讲,我这就不多说了,不清楚的请百度。 ...转载 2018-10-21 20:01:53 · 321 阅读 · 0 评论 -
(EM算法)The EM Algorithm
EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式 回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。...转载 2018-10-21 20:09:01 · 482 阅读 · 0 评论 -
机器学习数学|偏度与峰度及其python实现
矩对于随机变量X,X的K阶原点矩为 E(Xk)E(Xk) X的K阶中心矩为 E([X−E(X)]k)E([X−E(X)]k) 期望实际上是随机变量X的1阶原点矩,方差实际上是随机变量X的2阶中心矩 变异系数(Coefficient of Variation):标准差与均值(期望)的比值称为变异系数,记为C.V 偏度Skewness(三阶) 峰度Kurtosis(四阶)偏...转载 2018-11-13 21:09:09 · 516 阅读 · 0 评论 -
算法原理(2):样本熵(SampEn)
本文主要介绍样本熵的物理意义、算法以及Matlab里代码实现。1.物理意义 样本熵(Sample Entropy,SampEn)与近似熵的物理意义相似(近似熵参见博客【近似熵理论相关知识与代码实现】),都是通过度量信号中产生新模式的概率大小来衡量时间序列复杂性,新模式产生的概率越大,序列的复杂性就越大。 与近似熵相比,样本熵具有两个优势:样本熵的计算不依赖数据长度;样本熵...转载 2018-11-15 20:53:20 · 13140 阅读 · 5 评论 -
三种工具绘制errorbar图
误差棒是数据可变性的图形表示,并用于图表以指示所报告的测量中的误差或不确定性。他们给出了测量精确度的一般概念,或者相反,距报告值有多远,真实(无误差)值可能是多少。误差线通常代表不确定度的一个标准偏差,一个标准误差或特定的置信区间(例如95%间隔)。如果各种其他条件成立,误差棒可以用来比较两种数量。这可以确定差异是否具有统计显着性。误差条也可以表明给定函数的拟合度,即函数描述数据的程度。...转载 2018-11-14 20:33:33 · 9760 阅读 · 0 评论 -
峰度(Kurtosis)与偏态(Skewness)
我们在应用ArcGIS提供的克里格(Kriging)插值工具之前,经常要对数据的分布情况进行考察,这是因为克里格插值的前提假设之一就是数据服从正态分布。峰度(Kurtosis)与偏态(Skewness)就是量测数据正态分布特性的两个指标。(1)峰度(Kurtosis)峰度衡量数据分布的平坦度(flatness)。尾部大的数据分布,其峰度值较大。正态分布的峰度值为3。其公式如下:...转载 2018-11-19 11:33:14 · 26523 阅读 · 0 评论 -
偏度和峰度的计算
目录偏度(skewness)和峰度(kurtosis): 偏度的定义: 样本偏度的计算方法: 峰度的定义: 样本的峰度计算方法: python使用pandas来计算偏度和峰度正文偏度(skewness)和峰度(kurtosis): 偏度能够反应分布的对称情况,右偏(也叫正偏),在图像上表现为数据右边脱了一个长长的尾巴,这时大多数值分布在左侧,有一小部分值分布在右...转载 2018-11-19 17:25:58 · 19193 阅读 · 0 评论 -
matlab中legend函数的用法
部分内容摘自:http://blog.sina.com.cn/s/blog_6bdb7efd0100q091.html简要介绍:legend 是matlab中用于设置图例的线条和patches的函数,例如下图右上角上的线条和字幕的设置等等。函数使用方法:legend('string1','string2',...) legend(h,'string1','string2',...转载 2018-12-19 16:34:28 · 24504 阅读 · 0 评论 -
PyCharm中无法调用numpy,报错ModuleNotFoundError: No module named 'numpy'
之前安装了Python,后来因为练习使用Python写科学计算的东西,又安装了Anaconda,但是安装Anaconda之后又出现了一个问题,在命令行中编写Python命令调用numpy可以正常使用,但是在PyCharm中调用却会报错No module named 'numpy',也就是找不到numpy,情况如下面所示。在命令行中可以正常使用numpy:但是在PyCharm中不能...转载 2019-01-05 13:53:39 · 1791 阅读 · 0 评论 -
如何收集和整理论文(面向CS专业)
论文(Paper)是每个研究生读研路上挥之不去的“阴云”。无论是否已经有了一个好的课题或想法,都首先要收集某个研究方向一定数量的论文,来了解相关的工作和最新进展(State of the art & practice)。本文介绍了如何检索、收集计算机科学(CS)专业的论文,还介绍了与相关的机构,学术会议和论文数据库。文末有 Bonus 哦;-)转载 2017-10-10 16:06:47 · 14328 阅读 · 4 评论 -
matlab 显示柱形图
在 matlab 环境下显示柱形图,用于比较多次试验的结果,其中字体倾斜部分参考了别人的代码。地址:http://blog.csdn.net/susu_love/article/details/53257043[plain] view plain copyclc; clear all; filename = 'E:\result.xlsx'; original = xlsread(f...转载 2018-05-02 16:47:23 · 5214 阅读 · 0 评论