- 博客(14)
- 资源 (20)
- 收藏
- 关注
原创 机器学习-训练模型的保存与恢复(sklearn)
在做模型训练的时候,尤其是在训练集上做交叉验证,通常想要将模型保存下来,然后放到独立的测试集上测试,下面介绍的是Python中训练模型的保存和再使用。scikit-learn已经有了模型持久化的操作,导入joblib即可from sklearn.externals import joblib模型保存>>> os.chdir("workspace/model_save")>>> from sklea
2015-07-31 20:52:28 66276 24
原创 机器学习-CrossValidation交叉验证Python实现
版权声明:本文为原创文章,转载请注明来源。1.原理1.1 概念交叉验证(Cross-validation)主要用于模型训练或建模应用中,如分类预测、PCR、PLS回归建模等。在给定的样本空间中,拿出大部分样本作为训练集来训练模型,剩余的小部分样本使用刚建立的模型进行预测,并求这小部分样本的预测误差或者预测精度,同时记录它们的加和平均值。这个过程迭代K次,即K折交叉。其中,把每个样本的预测误差平方加和
2015-07-28 19:34:40 88076 4
原创 windows下sshfs挂载远程目录-server could not connect故障解决
使用sshfs挂载服务器上面的目录到windows中,轻松方便。在之前的系统上挂载,没出问题。最近买了块固态硬盘,装了个系统。结果在系统上运行sshfs时报如下错误: 其实很简单,就是DokanMounter服务没有开启。到控制面板–>管理工具–>服务,找到DokanMounter服务,先启动,然后设置为自动启动,下次就不要再来设置了。 成功挂载之后,如下图所示 此时,我的电
2015-07-28 08:55:06 6630 3
原创 机器学习-sklearn库的Cross Validation
一个Windows操作系统能够使用的pythonIDE winPython下载地址:WinPython_2.7传统的F-measure或平衡的F-score (F1 score)是精度和召回的调和平均值:F1=2precision∗recallprecision+recallF_1 = 2\dfrac{precision * recall}{precision + recall}1.Cross
2015-07-24 22:27:05 29236 1
原创 机器学习-组合算法总结
组合模型组合模型一般要比单个算法要好,下面简单的介绍下Bootstraping, Bagging, Boosting, AdaBoost, RandomForest 和Gradient boosting这些组合型算法.1.BootstrapingBootstraping: 名字来自成语“pull up by your own bootstraps”,意思就是依靠你自己的资源,称为自助法,它是一种有放
2015-07-24 22:23:17 3958
原创 Python学习-Numpy数据处理
前言标准的python中用list保存数值,可以当数组使用。但由于列表的元素是任意对象,因此列表中保存的是对象的指针。对于数值运算来说,这种结构显然会浪费内存和CPU计算时间。此外,python还提供了array模块,但由于其不支持多维数组,因此也不适合数值计算。So,Numpy正好弥补了这些不足,Numpy提供了两个基本的对象:ndarray和ufunc。ndarray是存储单一数据
2015-07-24 22:19:25 3043
翻译 机器学习scikit-learn入门教程
原文链接:http://scikit-learn.github.io/dev/tutorial/basic/tutorial.html章节内容在这个章节中,我们主要介绍关于scikit-learn机器学习词库,并且将给出一个学习样例。机器学习:问题设置通常,一个学习问题是通过一系列的n个样本数据来学习然后尝试预测未知数据的属性。如果每一个样本超过一个单一的数值,例如多维输入(也叫做多维数据),那么它
2015-07-20 19:27:49 23107 1
原创 Python学习-centos7.0下matplotlib安装及问题解决
Windows下matplotlib的安装,前面已经介绍了Python学习-windows安装Python以及matplotlib.pyplot包,由于现在在服务器上跑程序,需要在centos 7.0上安装,那么就做个笔记。首先matplotlib是需要numpy先行包支持的,这里,我已经安装了numpy,下面安装matplotlib。matplot需要一些其他软件支持 这时需要安装freetyp
2015-07-19 16:22:28 7503
原创 Linux-github 搭建静态博客
1.在Github上创建一个新的Repository到你的github上 https://github.com去create a new repository命名为 github.myblog 2.本地安装Jekyll-Bootstrap如果本地centos没有git,使用yum安装$ yum install git克隆jekyll-bootstrap$ git clone https://git
2015-07-17 16:00:58 2171
原创 Python学习-一个简单的计时器
在实际开发中,往往想要计算一段代码运行多长时间,下面我将该功能写入到一个函数里面,只要在每个函数前面调用该函数即可,见下面代码:#--------------------------------#一个记时器,只要在函数前面写上@fun_timer即可import timefrom functools import wraps def fun_timer(function): @wr
2015-07-16 16:27:38 8693
原创 Git命令汇总
1.github简介Git是一个分布式的版本控制系统,最初由Linus Torvalds编写,用作Linux内核代码的管理。在推出后,Git在其它项目中也取得了很大成功,尤其是在Ruby社区中。目前,包括Rubinius、Merb和Bitcoin在内的很多知名项目都使用了Git。Git同样可以被诸如Capistrano和Vlad the Deployer这样的部署工具所使用。github网址:www
2015-07-11 19:01:49 1402
原创 PSSM特征-从生成到处理
以下代码均为个人原创,如有疑问,欢迎交流。新浪微博:拾毅者本节内容:pssm生成pssm简化标准的pssm构建滑动pssm生成在基于蛋白质序列的相关预测中,使用PSSM打分矩阵会得将预测效果大大提高,同时,如果使用滑动的PSSM,效果又会进一步提高。这里主要以分享代码为主,下面介绍下PSSM从生成到处理的全过程。1.PSSM的生成PSSM的生成有多种方式,这里使用的psiblast软件,n
2015-07-07 22:34:00 12444 9
原创 机器学习算法-Adaboost
本章内容组合相似的分类器来提高分类性能应用AdaBoost算法处理非均衡分类问题主题:利用AdaBoost元算法提高分类性能1.基于数据集多重抽样的分类器 - AdaBoost 优点 泛化错误率低,易编码,可以应用在大部分分类器上,无需参数调整 缺点 对离群点敏感 适合数据类型 数值型和标称型数据bagging:基于数据随机重抽样的分类器构建方法自举汇聚法(b
2015-07-05 19:14:42 5505 1
原创 数据预处理-PDB文件处理代码
以下代码为个人原创,python实现,是处理PDB文件的常用代码,仅供参考!1.下载PDB文件下面是一个下载PDB文件的函数,传入的参数是一个写有pdb名字的namefile文件,函数的核心部分是三个系统命令,先通过wget下载,然后解压,最后替换名字。def downloadpdb(namefile): inputfile = open(namefile, 'r') for eac
2015-07-05 10:04:42 4659
visio_2010_64位.part3.rar
2018-04-29
visio 2010 64 bit-part2
2018-04-29
visio 2010 64 bit-part1
2018-04-29
visio 2010 64 bit-part4
2018-04-29
决策树算法python实现
2015-05-25
python2.7.5安装及其相应的matplotlib的包及依赖
2015-05-25
jQuery+Struts+Ajax无刷新分页
2015-04-13
jasperreports-5.5.1_struts2.3整合用到的jar包
2014-05-28
php-5.3.6-Win32-VC9-x64.zip
2014-03-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人