- 博客(21)
- 收藏
- 关注
原创 sklearn 5.18.10 logistic function
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn import linear_modelfrom scipy.special import expit# 本例子生成100个随机样本,样本转换为数据矩阵,根据样本的正负值生成目标值y,样本值为整,则目标值为1,样本值为负,则目...
2019-11-20 17:03:47 155
原创 sklearn 5.18.9 polynomial interpolation
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.linear_model import Ridgefrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.pipeline import make_pi...
2019-11-20 17:02:54 217
原创 sklearn 5.18.3 SGD - Maximum margin separating hyperplane
import numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import SGDClassifierfrom sklearn.datasets.samples_generator import make_blobs# 生成两个中心的50个样本数据,样本标准差为0.6X, Y = make_blob...
2019-10-30 16:46:51 296
原创 sklearn 5.18.2 plot ridge coefficients as a function of the regularization
# 展示相关系数的共线性对于模型的影响# 本例子应用岭回归拟合数据,结果图画中,每个颜色代表一个不同特征的相关系数路径向量,特征相关系数是正则项系数的函数(岭回归的惩罚函数有正则化项)# 本例子展示了岭回归对于病态条件矩阵数据的优点,病态条件指目标值一点微小的扰动会导致权重的巨大差距,这种情况下加一个正则化项限制权重大小非常有用# 当正则化项系数alpha非常大,正则化项的影响盖过了平方误...
2019-10-30 16:45:54 311
原创 sklearn 5.18.1 lasso path using LARS
# 基于糖尿病的数据集,基于Lasso计算特则的相关系数路径,Lasso中对L1正则项进行优化# 图示中每一个颜色代表了一个特征值的相关系数向量# 本例中使用Lasso模型基于数据集进行优化,得到不同超参数值的情况下,相关系数的解# 例子中并没有输出对数据集拟合的结果,只输出参数相关信息# 因为L1正则化容易产生稀疏解,也常用来做特征选择import numpy as npimpor...
2019-10-30 16:44:59 1093
原创 sklearn 5.18.2 plot ridge coefficients as a function of the regularization
# 展示相关系数的共线性对于模型的影响# 本例子应用岭回归拟合数据,结果图画中,每个颜色代表一个不同特征的相关系数路径向量,特征相关系数是正则项系数的函数(岭回归的惩罚函数有正则化项)# 本例子展示了岭回归对于病态条件矩阵数据的优点,病态条件指目标值一点微小的扰动会导致权重的巨大差距,这种情况下加一个正则化项限制权重大小非常有用# 当正则化项系数alpha非常大,正则化项的影响盖过了平方误...
2019-10-24 11:09:04 175
原创 sklearn 5.14.7 univariate feature selection
# 一个单变量特征选择的例子# 在使用iris数据集时,会往里添加噪音特征,然后再应用单变量特征选择。对于每一个特征,会同时展示出单变量特征选择给出的p值和SVM算法给出的权重值# 可以看到单变量选择会把拥有较高SVM权重的特征选择出来# 全量特征集中,只有4个是关键特征,它们在单变量特征选择中也拥有最高分# SVM虽然给这些特征赋予了最大权重,但仍然会选择其他无关特征# 在训练SVM...
2019-10-10 09:28:57 255
原创 sklearn 5.14.6 test with permutations the significance of a classification score
import numpy as npimport matplotlib.pyplot as pltfrom sklearn.svm import SVCfrom sklearn.model_selection import StratifiedKFoldfrom sklearn.model_selection import permutation_test_scorefrom skle...
2019-09-29 09:33:12 233
原创 sklearn 5.14.5小节 feature selection using SelectFromModel and LassoCV
# use SelectFromModel meta-transformers along with Lasso to select the best couple of features from the Boston datasetimport matplotlib.pyplot as pltimport numpy as npfrom sklearn.datasets import ...
2019-09-23 09:14:28 360
原创 sklearn 5.14.4节 recursive feature elimination with cross-validation
# 利用循环特征剔除算法,基于交叉验证,自动调整选取特征的最优数目import matplotlib.pyplot as pltfrom sklearn.svm import SVCfrom sklearn.model_selection import StratifiedKFoldfrom sklearn.feature_selection import RFECVfrom skle...
2019-09-17 10:26:20 436
原创 sklearn 5.14.3节 pipeline anova svm
from sklearn import svmfrom sklearn.datasets import samples_generatorfrom sklearn.feature_selection import SelectKBest, f_regressionfrom sklearn.pipeline import make_pipelinefrom sklearn.pipeline...
2019-09-09 10:08:48 452
原创 sklearn手册 5.14.1节 recursive feature elimination
from sklearn.svm import SVCfrom sklearn.datasets import load_digitsfrom sklearn.feature_selection import RFEimport matplotlib.pyplot as plt# load the digits dataset# 返回图片格式的数字数据集,数据类型是np.Bunch,...
2019-09-02 12:30:47 529
原创 sklearn手册5.14.2节 comparison of F-test and mutual information
5.14.2 comparison of F-test and mutual information"This example illustrates the differences between univariate F-test statistics and mutual information.We consider 3 features x_1, x_2, x_3 distribu...
2019-09-02 12:28:34 355
原创 sklearn手册 5.4.1 comparison of calibration of classifiers
源码和注释:import numpy as npnp.random.seed(0)import matplotlib.pyplot as pltfrom sklearn import datasetsfrom sklearn.naive_bayes import GaussianNBfrom sklearn.linear_model import LogisticRegressio...
2019-08-26 14:24:59 303 1
原创 sklearn实例学习:comparing different clustering algorithms on toy datasets(5.6.27节)
本文是基于官方文档学习sklearn的一点记录和源代码解释。不对算法或代码原理做深入解释,只是大概说一下程序执行过程和函数的使用,再稍微记录遇到的问题。 参考材料都是随便搜的,如有更好的,欢迎补充~ 因为不是专业的,有些地方翻译或理解会有问题,欢迎指正~这个例子是sklearn learn官方手册中5.6.27小节的例子。在6个小数据集(toy dataset)上分别使用10种聚类算法的效果...
2019-08-21 16:15:46 1654
原创 记录平时用到的东西
(1)让Java程序在linux后台运行(2)jdbc连接teradata数据库(两种方式,一种利用本地odbc源,一种为通过jar包调用的方式)(3)jdbc插入teradata数据库响应限制的解决办法(出错提示为:respond limit exceed)(4)java读写文件(两个类:BufferedReader和BufferedWriter)
2016-01-06 11:59:19 556
原创 windows命令行下如何用命令行方式打包可执行jar包
1.进入cmd2.输入命令:jar cvfm userjar.jar manifest.mf *3.jar包打成,输入命令测试:java -jar userjar.jar4.大功告成~好了,上面是来开玩笑的,今天主要想说一说打包过程中遇到的问题。1)执行第2步时,提示FileNotFoundException:manifest.mf错误该如何解决? 原因就不说
2015-12-29 10:14:34 4659
原创 关于Emacs的个性化设置
一句话“Vim是编辑器的神,Emacs是神的编辑器”就足以说明emacs受人尊崇的地位,但是作为我等刚刚听说过的emacs的小白,每每听到别人大谈特谈各种大神的定制版emacs,表示自己也很想要啊!可是万事开头难,大家一说到这个问题就说自己去github上下载啦,或者一些具有奉献精神的大牛把自己的配置贴出来啦,我再次表示非常的感激!真的!!但是问题是,你给了我源码我也不知道把这些东西拷贝到
2015-05-13 11:23:09 621
原创 学习cloudsim-2.1.1以及实现动态双阈值虚拟机迁移策略(1)
cloudsim2.1.1是一个开源的云平台仿真工具,一切参数都可以自己设置。这里主要是慢慢学习cloudsim的虚拟机迁移策略。任务分配策略可以参考书《云计算》第二版(刘鹏 主编),内有详细介绍,以及拓展实例一篇。虚拟机迁移策略要看一下里面给的singlethreshold.java的例子,这时单静态阈值的迁移策略,还要熟悉power这个包,里面是策略的实现过程。--------
2015-04-01 14:25:09 1829
原创 学习《自己动手写网络爬虫》之记录2
这一节是书中的第一个比较综合的实例,包括5个.java文件,把程序实现之后没有什么大问题,只有一个接口类需要注意:LinkFilter,书中后面也说了,这个类需要实现,也给出了实现代码。这里主要说的是要注意一下这个类的引用问题。因为这个类我是在HtmlParserTool中实现的,但是在MyCrawler中有引用,这里不必重复实现,否则会出错,具体原因我也不知道,可能是变量的作用域引起的。解决
2015-04-01 14:18:00 1136
原创 学习《自己动手写网络爬虫》之记录1
某天突发奇想,想自己写一个网络爬虫,然后上网查了前辈们的经历,发现网络爬虫好处多多,于是坚定了自己的决心。再上网一找,看到好多人推荐这本书,于是就以这本书为参考来实现自己的网络爬虫了!首先都是照着书上的程序的运行,但毕竟这本书已经发行挺久了,于是可能会有一些误差,所以开这个博客记录一下自己的网络爬虫之路。先说一下作者推荐的开源工具httpclient。作者用的应该是3.x,但是现在官网
2015-04-01 11:23:46 5236 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人