【Python学习系列二十】scikit-learn库模型持久化

场景:需要将模型保存到内存,或磁盘。 代码: # -*- coding: utf-8 -*- import pandas as pd import pickle as pkl from sklearn.externals import joblib from sklearn import svm...

2017-06-30 11:49:43

阅读数:1608

评论数:0

【Python学习系列十九】基于scikit-learn库进行特征选择

场景:特征选择在模型训练前是非常有意义的,实际上就是先期对特征相关性进行分析。 参考:http://blog.csdn.net/fjssharpsword/article/details/73550337 代码:这里基于scikit-learn库联系了几个特征选择方法,实际学习任务当然需要掌握...

2017-06-29 17:20:52

阅读数:1871

评论数:0

linux命令wc解读

Linux系统中的wc(Word Count)命令的功能为统计指定文件中的字节数、字数、行数,并将统计结果显示输出。 统计指定文件中的字节数、字数、行数,并将统计结果显示输出。该命令统计指定文件中的字节数、字数、行数。如果没有给出文件名,则从标准输入读取。wc同时也给出所指定文件的总统计...

2017-06-29 10:16:07

阅读数:1405

评论数:0

linux文本分析工具awk解读

awk是一个强大的文本分析工具,相对于grep的查找、sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。awk把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。显然awk适用于文件中的每行都被特定的分隔符隔开,文件是一个行列矩阵。 语法 awk [选项参...

2017-06-28 10:33:49

阅读数:1704

评论数:0

eclipse卸载插件小记

eclipse用久了,上面好多插件,android、C++、python什么的好多,每次加载都费时,所以只能卸载了,需要时再装,记录下过程: 1、【Help】->【Install  New Software...】,打开安装插件页面; 2、打开已安装插件: 选择要卸载的...

2017-06-28 08:34:31

阅读数:1534

评论数:0

Java机器学习库ML之十一线性SVM

线性SVM的原理就不多说了,这里直接给出ML库的示例代码: /** * This file is part of the Java Machine Learning Library * * The Java Machine Learning Library is free software...

2017-06-27 16:57:27

阅读数:1853

评论数:0

Java机器学习库ML之十模型选择准则AIC和BIC

学习任务所建立的模型多数是参数估计并采用似然函数作为目标函数,当训练数据足够多时,可以不断提高模型精度,但是以提高模型复杂度为代价的,同时也带来一个机器学习中非常普遍的问题——过拟合。模型选择问题是在模型复杂度与模型对数据集描述能力(即似然函数)之间寻求最佳平衡。         对于过拟合问题...

2017-06-27 16:23:36

阅读数:2341

评论数:0

Java机器学习库ML之九交叉验证法(Cross Validation)

交叉验证(Cross Validation,CV)是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set)。首先用训练集对分类器进行训练,再利用验证集来测试训练得...

2017-06-27 15:52:01

阅读数:2314

评论数:0

Java机器学习库ML之八关于模型迭代训练的试验

前文提到因为数据集过大,只能拆分然后依次迭代训练,实验发现对结果有所偏差,参考代码如下: package com.vip; import java.io.File; import java.util.Map; import be.abeel.util.Pair; import net.sf.j...

2017-06-27 14:38:10

阅读数:1902

评论数:0

【正一专栏】中国当下的主要矛盾——个人极端主义泛滥带来的危机

中国当下的主要矛盾——个人极端主义泛滥带来的危机 九天时空 在存在着阶级的人类社会里,历史发展的根本动力就是阶级矛盾,因此马克思列宁主义者研究社会历史问题和革命问题的基本方法是阶级矛盾分析法。毛主席说:要了解情况,唯一的方法是向社会做调查,调查社会各阶级的生活情况。对于担负知道...

2017-06-27 11:24:36

阅读数:2131

评论数:0

Linux下为文件增加列的shell脚本

场景:linux有份文件,需要增加一列序号来标记,通过shell脚本来实现。 步骤: 1)创建一份test.txt文件,内含一列,如下: bash-4.1$ cat test.txt a b c d e 2)创建脚本row_id.sh,如下: bash-4.1$ cat row_id.s...

2017-06-26 17:48:16

阅读数:3396

评论数:0

RSA非对称加密算法Java实现之输出key文件

场景:Java实现RSA,将公钥和秘钥分别输出文件,公钥用于加密,私钥用于解密。 重点要关注解密时,不能直接传String,要用byte[],所以需要加二者转换函数。 参考代码如下: package sk.ml; import java.io.ByteArrayOutputStream; ...

2017-06-26 13:03:15

阅读数:2056

评论数:0

Java机器学习库ML之七分类预测输出概率值

场景:一般分类预测直接输出类别标记,不过有些情况需要输出对应类别的概率值,比如判定为正例的概率是0.6,而判定为负例的概率是0.3,那自然标记为正例,这里就是看ML用classDistribution输出各类别的概率值。参考代码如下: /** * This file is part of th...

2017-06-26 10:44:32

阅读数:2055

评论数:0

荷莲趣赏一二

荷莲趣赏一二 夏日炎炎,为求清凉好去处,应好友邀约,驱车百多公里前往临县荷花节观赏荷花盛宴。臆想那荷花飘香、睡莲百态,自醉那凝珠欲滴、花蕊争艳,漫步那蔓藤青青、绿柳依依的果园,定是墨笔飞绪共谐凉爽的惬意。不意现场如斯骨感,也是令人扼腕长叹。 为避开“游人如织、摩肩接踵”的盛况,我等一行三大一小...

2017-06-26 09:45:39

阅读数:1861

评论数:0

【正一专栏】国乒球员退赛——体育总局说点人话就这么难吗?

国乒球员退赛——体育总局说点人话就这么难吗? 九天时空 体育很少和政治扯上关系,但是在当下的中国体坛,昨天却引爆了一颗核弹,在正在进行的国际乒联中国公开赛中,国乒的几位男运动员都选择了退赛,然后再微博中都发了一条:“这一刻我们无心恋战……只因想念您,刘国梁!“,瞬间引爆了网络。而中国体...

2017-06-25 16:55:15

阅读数:3261

评论数:0

【正一专栏】故意豪宅纵火的保姆会判死刑吗?

故意豪宅纵火的保姆会判死刑吗? 这几天被杭州一家豪宅保姆故意纵火导致女主人和三个孩子死亡的新闻刷屏了,多么好的家庭就这样家破人亡,剩下出差在外的男主人的哀嚎、悲伤还有愤怒,这种伤痛会陪伴着他一辈子。 当第一眼看到这则新闻的时候,还没说保姆纵火只是说价值2...

2017-06-24 16:01:00

阅读数:4806

评论数:0

Java机器学习库ML之六关于模型迭代训练的思考

我遇到的场景是:样本集有5000万条,接近5个G,那么这样的样本集一次导入训练,我放着一天一夜都没跑出结果,机器性能还特别好,是64位linux有128G内存。 针对这样的情况,我想到的是两种思路: 1)将样本集分割然后来迭代训练模型,这个对模型结果理论上是没有影响的,一次导入样本集训练,和多次导...

2017-06-23 11:32:34

阅读数:2420

评论数:0

Java机器学习库ML之五样本不均衡

样本不均衡的问题是指训练集中类别之间的样本数据量比例失衡。有研究表明,部分学习任务,在类别出现1∶35比例时就会使某些分类学习方法无效,甚至1∶10比例也会。样本不均衡导致的问题有: 1)少数类所包含的信息就会很有限,从而难以确定少数类数据的分布,即在其内部难以发现规律,进而造成少数类的识别率低...

2017-06-23 10:06:09

阅读数:2312

评论数:0

Java机器学习库ML之四模型训练和预测示例

基于ML库机器学习的步骤: 1)样本数据导入; 2)样本数据特征抽取和特征值处理(结合模型需要归一化或离散化);这里本文没有做处理,特征选择和特征值处理本身就很大; 3)样本集划分训练集和验证集; 4)根据训练集训练模型; 5)用验证集评价模型; 6)导入测试集,并用模型预测输出预测结果; pac...

2017-06-22 17:19:51

阅读数:2816

评论数:0

Java数据结构Map遍历和排序

map结构和list结合很好用,基本的遍历和排序每次都要查一下,用的不熟练,这里汇总下map的基本遍历和排序,参考的代码如下: package com.vip; import java.util.ArrayList; import java.util.Collections; import j...

2017-06-22 17:13:45

阅读数:2521

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭