qysh123的专栏

个人主页:http://gr.xjtu.edu.cn/web/quyu

排序:
默认
按更新时间
按访问量

Wilcoxon signed-rank test和Wilcoxon rank-sum test及其在SciPy中的使用注意事项

其实这个问题很多朋友都已经介绍得很清楚了,例如这里:https://blog.csdn.net/chikily_yongfeng/article/details/82255575,http://blog.sciencenet.cn/blog-306699-984510.html,https://b...

2018-10-16 01:03:23

阅读数:87

评论数:0

准确获取Eclipse Foundation项目的Git链接和版本

接之前的一篇博客:https://blog.csdn.net/qysh123/article/details/78785146 最近又需要用上面提的这篇论文中的一些数据,但是发现Eclipse Foundation的项目还真是难下载,所以简单总结一下。像之前说的,在这里:http://git.e...

2018-10-08 10:45:54

阅读数:33

评论数:0

SKLearn和Weka中Random Forest对相同数据分类结果不一致的问题(没有完全解决)

这个问题真的很郁闷,我一直觉得SKLearn在输出的分类效果上比不上Weka,可是最近一个实验无奈必须要使用SKLearn。我选择一致的训练和测试数据,结果Weka和SKLearn的结果分别如下: Precision: 0.8070175438596491 Recall: 0.747967479...

2018-09-25 17:05:52

阅读数:57

评论数:0

SMOTE算法实现过程中应注意的一个问题

SMOTE是大家在机器学习任务中经常使用的处理非平衡数据的方法,其全称是Synthetic Minority Over-sampling Technique,论文的链接是:https://www.jair.org/index.php/jair/article/view/10302,其PDF版本的直...

2018-09-21 22:28:14

阅读数:66

评论数:0

使用Gensim计算LSI时两种语料库流的实现方式

我对自然语言处理实在不熟,这篇博客也就当是学习了。 最近需要将一个待分析对象(一个软件项目或者是一个源代码)表示为一个document,再从自然语言处理的角度计算它们的相似性。免不了要用到LSI这样的方法。网上介绍Gensim中LSI的实现的方法已经很多,也有很多教程指出:如果语料库特别大,那我...

2018-08-22 03:00:33

阅读数:104

评论数:0

Python统计文件夹和子文件夹下文件个数

很简单的功能,但是发现网上的例子都不对啊: import os file_count=0 for dirpath, dirnames, filenames in os.walk('待分析目录'): for file in filenames: file_count=f...

2018-08-21 16:35:54

阅读数:209

评论数:0

Win10家庭版彻底关闭自动更新的方法(本地组策略编辑器)

我用的一个笔记本是Thinkpad X1 Carbon,预装了Win 10家庭版,目前用的时候不知道怎么回事,每次Windows Update都会使风扇一直转。联想+微软Win10真是不靠谱到极致。所以想看看怎么把自动更新关掉。 有些教程里介绍用服务设置,例如:https://blog.csdn...

2018-08-12 21:24:06

阅读数:6535

评论数:4

群晖NAS报“发生网络错误。请检查DNS和网络设置”的解决方法

如标题中所述,新买的群晖DNS,登录Synology账号,设置所谓的QuickConnect的时候就会报这种错误,尝试了一下“控制面板”——网络——手动配置DNS服务器——填入:180.76.76.76,再进行类似如图所示的设置即可。呵呵,貌似这个问题存在好几年了,这种厂商,怎么能让人放心呀。 ...

2018-08-09 22:57:35

阅读数:2041

评论数:0

LaTeX中调整论文长度的一种方法(调整图表标题和正文间距)

今天花了两个小时折腾一篇论文的Camera Ready版本。由于各种会议、期刊等目前都有论文的最长限度(例如Transactions on Software Engineering,TSE目前的标准是12页内免费,12到18页收钱,但是最长不能超过18页),所以每次都要尽量努力缩短论文PDF文件的...

2018-08-05 17:40:12

阅读数:418

评论数:0

复杂网络中Ego Network(自我中心网络)部分指标的计算

由于科研需要,简单研究了一下自我中心网络中指标的计算方法,这里做一个简单的总结。关于Ego Network的概念,可以参考周涛老师的博客:http://blog.sciencenet.cn/blog-3075-1072943.html 我需要在实验中对比10年前这篇ICSE文章中使用的指标: ...

2018-08-03 17:22:04

阅读数:410

评论数:0

用ACM LaTeX最新模板(acmart)时遇到的作者单位和地址无法合并的问题

这个问题只是简单记录一下,目前并没有太好的解决方案。 这几天在准备一篇论文的Camera Ready版本,发现这个问题很让人苦恼,以前我们用ACM的LaTeX模板,如果多个作者属于一个单位,可以用\sharedaffiliation这种方式,但是现在不行了。例如在这里:https://www.a...

2018-07-24 16:34:57

阅读数:310

评论数:0

出国回来后iPhone不正常显示通讯录姓名的解决方法

这个问题真是让人很无语。具体解决方法:设置——通用——语言与地区——将地区选择为除“中国”的任一个国家,再选择回来——即可解决该问题。想知道,这么简单的Bug,苹果的程序猿们都不管吗?...

2018-07-22 13:56:15

阅读数:2318

评论数:0

Visio中画的图怎么更清晰美观地插入LaTeX中(Visio 2016)

一个写论文的小技巧。这个问题也是觉得微软太坑了。Visio是我们经常使用的画流程图、框图之类的工具,不过我目前使用Visio 2016的时候,发现如果把Visio画的图导出成PDF(不存成bmp,png等格式的原因还是希望能插入矢量图。)的时候,发现Visio对字体的排版很差劲,会出现字母间距不一...

2018-06-16 22:03:02

阅读数:671

评论数:0

通过GitHub API下载Repository源码Zip文件的方法

由于科研需要,需下载上千个Repo的源码,简单试了一下用GitHub下载的方法,其实很简单,唯一需要注意的是,使用requests.get下载大文件时的注意事项,可以参考这里:https://blog.csdn.net/abcd1f2/article/details/53322934。最后,附上一...

2018-06-10 20:39:35

阅读数:271

评论数:0

Python字符串中大写字母前增加空格的方法(字符串用大写字母分割)

这也是最近处理数据的实际需求,找了一些网页,发现大家都总结得不是很清楚,最后参考几位朋友的文章,例如这里:https://blog.csdn.net/oh5W6HinUg43JvRhhB/article/details/79676440实现了需求,实际上很简单,就是用re包:import re ...

2018-06-09 22:37:10

阅读数:579

评论数:0

R语言包arules进行频繁项集挖掘的最简单例子

arules是进行频繁项集挖掘(frequent itemset mining)的有效工具,不过我在使用的时候发现网上很多例子都比较繁琐,这里总结一下其中apriori方法的最简单使用方法,这里首先给出代码:files_change<-read.transactions(in...

2018-06-03 00:52:14

阅读数:279

评论数:0

怎样通过GitHub API下载Repository的README文本内容

这个是我在获取数据时候的一些经验,简单总结一下:按照这里的文档:http://pygithub.readthedocs.io/en/latest/github_objects/Repository.html要得到一个Repository的Readme文件,只需要使用:get_readme这个方法会...

2018-05-28 11:51:31

阅读数:392

评论数:0

导入GHTorrent数据库时copy to tmp table操作时间过长的解决方法

由于之前把Ubuntu系统搞崩了,所以之前已经导入的GHTorrent数据集又得重新导入,发现copy to tmp table的时间特别长,想了想自己之前已经设置了tmp_table_size,但仔细搜索了一下,发现为了解决这个问题,仅仅设置这一处是不对的,例如这里讨论的:https://dba...

2018-05-24 22:37:04

阅读数:136

评论数:0

导入GHTorrent数据库时报错:Incorrect datetime value: '1970-01-01 01:00:01' for column 'updated_at' at的解决方案

这篇博客只是为了自己记录方便,在之前的一篇博客中,我介绍了如何下载安装GitHub完整记录数据库GHTorrent的方法。这几天由于实验的需要,准备重新走一遍流程,发现了标题中所说的问题,所以简单记录一下。在导入Projects.csv这个表的时候,报:Incorrect datetime val...

2018-05-19 15:29:30

阅读数:342

评论数:0

Java方法参数类型和JNI参数类型的转换

前两天处理一些数据的时候,注意到数据集中的Java方法参数和我们平时常用的形式不一样,例如:withinInstruction(Token,BitSet,BitSet)被表示为:withinInstruction(LToken;LBitSet;LBitSet;)查了一下,原来这是JNI类型的表示方...

2018-05-06 13:11:50

阅读数:122

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭