2017年06月_fjssharpsword

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创【Python学习系列二十】scikit-learn库模型持久化

场景：需要将模型保存到内存，或磁盘。代码：# -*- coding: utf-8 -*-import pandas as pdimport pickle as pklfrom sklearn.externals import joblibfrom sklearn import svm#加载数据label_ds=pd.read_csv(r"D:\\tmp\\sam_11.csv

2017-06-30 11:49:43 2418

原创【Python学习系列十九】基于scikit-learn库进行特征选择

场景：特征选择在模型训练前是非常有意义的，实际上就是先期对特征相关性进行分析。参考：http://blog.csdn.net/fjssharpsword/article/details/73550337代码：这里基于scikit-learn库联系了几个特征选择方法，实际学习任务当然需要掌握理论来应用，FeatureSelecton.py如下# -*- coding: utf-8 -*-

2017-06-29 17:20:52 2797 6

原创 linux命令wc解读

Linux系统中的wc(Word Count)命令的功能为统计指定文件中的字节数、字数、行数，并将统计结果显示输出。统计指定文件中的字节数、字数、行数，并将统计结果显示输出。该命令统计指定文件中的字节数、字数、行数。如果没有给出文件名，则从标准输入读取。wc同时也给出所指定文件的总统计数。# wc --help用法：wc [选项]... [文件]...　或：wc [选项

2017-06-29 10:16:07 1646

原创 linux文本分析工具awk解读

awk是一个强大的文本分析工具，相对于grep的查找、sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。awk把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。显然awk适用于文件中的每行都被特定的分隔符隔开，文件是一个行列矩阵。语法awk [选项参数] 'script' var=value file(s)或awk [选项参数] -f s

2017-06-28 10:33:49 1981

原创 eclipse卸载插件小记

eclipse用久了，上面好多插件，android、C++、python什么的好多，每次加载都费时，所以只能卸载了，需要时再装，记录下过程：1、【Help】->【Install New Software...】，打开安装插件页面；2、打开已安装插件：选择要卸载的插件，【Uninstall...】即可，重启eclipse生效。

2017-06-28 08:34:31 1776

原创 Java机器学习库ML之十一线性SVM

线性SVM的原理就不多说了，这里直接给出ML库的示例代码：/** * This file is part of the Java Machine Learning Library * * The Java Machine Learning Library is free software; you can redistribute it and/or modify * it unde

2017-06-27 16:57:27 2291

原创 Java机器学习库ML之十模型选择准则AIC和BIC

学习任务所建立的模型多数是参数估计并采用似然函数作为目标函数，当训练数据足够多时，可以不断提高模型精度，但是以提高模型复杂度为代价的，同时也带来一个机器学习中非常普遍的问题——过拟合。模型选择问题是在模型复杂度与模型对数据集描述能力（即似然函数）之间寻求最佳平衡。对于过拟合问题，可加入模型复杂度的惩罚项来避免，这里通过ML库代码介绍两个模型选择方法：赤池信息准则（Akaike

2017-06-27 16:23:36 3783

原创 Java机器学习库ML之九交叉验证法(Cross Validation)

交叉验证(Cross Validation,CV)是用来验证分类器的性能一种统计分析方法，基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set)。首先用训练集对分类器进行训练，再利用验证集来测试训练得到的模型(model)，以此来做为评价分类器的性能指标。常见CV的方法如下:1)Hold-Out

2017-06-27 15:52:01 3259 1

原创 Java机器学习库ML之八关于模型迭代训练的试验

前文提到因为数据集过大，只能拆分然后依次迭代训练，实验发现对结果有所偏差，参考代码如下：package com.vip;import java.io.File;import java.util.Map;import be.abeel.util.Pair;import net.sf.javaml.classification.Classifier;import net.sf.jav

2017-06-27 14:38:10 2288

原创 Linux下为文件增加列的shell脚本

场景：linux有份文件，需要增加一列序号来标记，通过shell脚本来实现。步骤：1）创建一份test.txt文件，内含一列，如下：bash-4.1$ cat test.txtabcde2）创建脚本row_id.sh，如下：bash-4.1$ cat row_id.sh#!/bin/shlines=$1for ((i=1;i<=$lines;i++))do

2017-06-26 17:48:16 9024

原创 RSA非对称加密算法Java实现之输出key文件

场景：Java实现RSA，将公钥和秘钥分别输出文件，公钥用于加密，私钥用于解密。重点要关注解密时，不能直接传String，要用byte[]，所以需要加二者转换函数。参考代码如下：package sk.ml;import java.io.ByteArrayOutputStream;import java.io.File;import java.io.FileInputStream

2017-06-26 13:03:15 2657

原创 Java机器学习库ML之七分类预测输出概率值

场景：一般分类预测直接输出类别标记，不过有些情况需要输出对应类别的概率值，比如判定为正例的概率是0.6，而判定为负例的概率是0.3，那自然标记为正例，这里就是看ML用classDistribution输出各类别的概率值。参考代码如下：/** * This file is part of the Java Machine Learning Library * * The Java Mac

2017-06-26 10:44:32 4183 4

原创荷莲趣赏一二

荷莲趣赏一二夏日炎炎，为求清凉好去处，应好友邀约，驱车百多公里前往临县荷花节观赏荷花盛宴。臆想那荷花飘香、睡莲百态，自醉那凝珠欲滴、花蕊争艳，漫步那蔓藤青青、绿柳依依的果园，定是墨笔飞绪共谐凉爽的惬意。不意现场如斯骨感，也是令人扼腕长叹。为避开“游人如织、摩肩接踵”的盛况，我等一行三大一小于近正午时分抵达，此前阵雨刚过，风也不再热，心悦跃跃。购票时的一个小插曲，众友也是啼笑皆非，一去递钱一

2017-06-26 09:45:39 2141

原创【正一专栏】故意豪宅纵火的保姆会判死刑吗？

故意豪宅纵火的保姆会判死刑吗？这几天被杭州一家豪宅保姆故意纵火导致女主人和三个孩子死亡的新闻刷屏了，多么好的家庭就这样家破人亡，剩下出差在外的男主人的哀嚎、悲伤还有愤怒，这种伤痛会陪伴着他一辈子。当第一眼看到这则新闻的时候，还没说保姆纵火只是说价值2000万的豪宅失火，女主人和三个孩子丧生，保姆从保姆电梯逃生。网上的评论基本都是一边倒的情况，好多吃瓜

2017-06-24 16:01:00 5215

原创 Java机器学习库ML之六关于模型迭代训练的思考

我遇到的场景是：样本集有5000万条，接近5个G，那么这样的样本集一次导入训练，我放着一天一夜都没跑出结果，机器性能还特别好，是64位linux有128G内存。针对这样的情况，我想到的是两种思路：1）将样本集分割然后来迭代训练模型，这个对模型结果理论上是没有影响的，一次导入样本集训练，和多次导入样本多次训练同一个模型，最终模型结果应该是一致的；模型保存的针对训练集所训练出来的参数，如y=a

2017-06-23 11:32:34 3119

原创 Java机器学习库ML之五样本不均衡

样本不均衡的问题是指训练集中类别之间的样本数据量比例失衡。有研究表明，部分学习任务，在类别出现1∶35比例时就会使某些分类学习方法无效，甚至1∶10比例也会。样本不均衡导致的问题有：1）少数类所包含的信息就会很有限，从而难以确定少数类数据的分布，即在其内部难以发现规律，进而造成少数类的识别率低；2）数据碎片，很多分类算法采用分治法，样本空间的逐渐划分会导致数据碎片问题，这样只能在各个独立的

2017-06-23 10:06:09 2690

原创 Java机器学习库ML之四模型训练和预测示例

基于ML库机器学习的步骤：1）样本数据导入；2）样本数据特征抽取和特征值处理（结合模型需要归一化或离散化）；这里本文没有做处理，特征选择和特征值处理本身就很大；3）样本集划分训练集和验证集；4）根据训练集训练模型；5）用验证集评价模型；6）导入测试集，并用模型预测输出预测结果；package com.vip;import java.io.File;import

2017-06-22 17:19:51 5577 2

原创 Java数据结构Map遍历和排序

map结构和list结合很好用，基本的遍历和排序每次都要查一下，用的不熟练，这里汇总下map的基本遍历和排序，参考的代码如下：package com.vip;import java.util.ArrayList;import java.util.Collections;import java.util.Comparator;import java.util.HashMap;impo

2017-06-22 17:13:45 3569

原创 Hive表联合查询语句参考

hive语句不是很熟悉，对表联合这个基本的都要找半天资料，这里写下，作为以后的参考：select a.time_stamp,a.acc_nbr,b.bts_name from (select * from default.tableA where start_date >=20170612 and start_datehive表连接语法：join_table: t

2017-06-22 15:25:36 2956

原创 64位Linux下JVM内存调设遇到GC问题的备忘

问题：jar提交到64位的linux环境中执行，由于文件过大，5G左右，发现数据一致导入不了，于是设置了JVM内存，执行命令如下：java -Xmx10240m -jar vip.jar结果爆出GC错误：java.lang.OutOfMemoryError: GC overhead limit exceeded分析：官网上对该错误的说明：The concurrent co

2017-06-22 14:32:21 2819

原创 Linux大文件切割命令split

场景：linux有些大文件处理起来不方便，需要将其分割，发现一个好用的命令。bash-4.1$ split --help用法：split [选项]... [输入 [前缀]]将输入内容拆分为固定大小的分片并输出到"前缀aa"、"前缀ab",...；默认以 1000 行为拆分单位，默认前缀为"x"。如果不指定文件，或者文件为"-"，则从标准输入读取数据。长选项必须使用的参数对于短选项时

2017-06-22 08:35:38 16401

原创 Java机器学习库ML之三Sampling(采样)

场景：从样本集中采样80%用于训练，20%用于验证。参考代码如下：package com.gddx;import java.io.File;import java.util.Map;import libsvm.LibSVM;import net.sf.javaml.classification.Classifier;import net.sf.javaml.classific

2017-06-21 17:17:21 3252

原创机器学习知识点(三十七)特征选择方法总结

在模型训练中，特征选择是非常重要。样本有限的情况，特征过多计算开销过大；通过特征选择去掉冗余和不相关特征，可提高模型性能降低计算开销。两个字：降维。当然降维后，模型性能应该是提升的。特征选择的最终目的是获取尽可能小的特征子集，用于训练模型。特征选择有什么方法呢？在一次机器学习训练中，我把所有特征作了穷尽组合，然后放到模型中去训练，最后用f1-score来度量，那个好就选那个，悲剧的是，存在过拟

2017-06-21 16:21:51 7337

原创 Java机器学习库ML之二Feature Selection（特征选择）

机器学习中训练模型的前提必备工作就是特征选择，起到降维和降低计算开销的目的，当然在获取尽可能小的特征子集的同时，应不显著降低分类精度、不影响类分布、保持特征子集的稳定适应性强等。ML库提供了特征选择方法，具体有：1、递归特征消除 Recursive feature elimination (RFE)：递归特征消除的主要思想是反复的构建模型（如SVM或者回归模型）然后选出最好的（或者最差

2017-06-21 15:25:07 4064 2

原创 Java机器学习库ML之一Dataset和Instance

Java机器学习库ML官网：http://java-ml.sourceforge.net/对于一个机器学习库来说，最基础就是数据处理能力，ml库给了dataset和instance两个类，dataset是矩阵，instance是行（可以理解是一个list，或一个double数组）。本文给出最基本的Dataset和Instance操作，可以完成对一个矩阵的遍历，定位到每一行里的每一个列，可惜

2017-06-21 14:55:18 5027 2

原创 RSA非对称加密算法Java实现

RSA适用场景：1）乙方生成两把密钥（公钥和私钥）。公钥是公开的，任何人都可以获得，私钥则是保密的。2）甲方获取乙方的公钥，然后用它对信息加密。3）乙方得到加密后的信息，用私钥解密。参考代码如下：package sk.ml;import java.io.ByteArrayOutputStream;import java.io.File;import java

2017-06-21 09:26:51 2227

原创 HtmlUnit爬取页面列表链接

场景：爬虫网页列表上的链接，用于再次爬虫，主要功能是列表翻页功能。代码参考：package com;import com.gargoylesoftware.htmlunit.BrowserVersion;import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;import com.gargoy

2017-06-19 11:52:10 3340

原创冠军杜兰特和Deta比赛

这一周，两件事不得不说，一个是NBA本赛季杜兰特终于如愿为勇士折桂、个人拿下总决赛MVP；另一个就是重组织形式而不重比赛内容的delta。总觉得这两件事有点关联，就是没想出有什么，也许是团队的重要性吧。NBA这个赛季，和以前一样，还就是周末还有球赛看一看，然而比往年多了一个关注点，就是勇士队的比赛，重点是整队的稳定性还有就是杜兰特的表现。为什么这么关注呢？源于那时在小区球场上，某位球友的看

2017-06-18 18:07:14 2118

原创半夜的噩梦

半夜的噩梦，快快写下来：我有个大学学弟叫小磊，关系不错，重要的证明是，几乎不参加婚礼的我竟然带太太去齐齐哈尔参加过他的婚礼。说远了，与其说我喜欢他不如说我惧怕他的体格。180厘米身高有100公斤体重，平时练搏击的他长着白白净净的笑脸。逮着谁都要比试下气力，这回轮到我上场了。比赛项目是互相在相反的方向拉扯同一件有弹力的衣服。第一回合，经过带着不可思议表情的他的计算，我竟然挺了

2017-06-18 17:30:54 2037

原创【Python学习系列十八】基于scikit-learn库逻辑回归训练模型(delta比赛代码3)

为了得到一致假设而使假设变得过度严格称为过拟合。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。由于比赛中样本量是一致，目标测试集也是既定，所以我的思路是：先把过拟合特征做预训练，然后放入重新训练。参考代码如下：# -*- coding: utf-8 -*-import pandas as pdimport timefrom sklea

2017-06-16 10:42:27 2974

原创【Python学习系列十七】基于scikit-learn库逻辑回归训练模型(delta比赛代码2)

机器学习任务流程：学习任务定义->数学建模->训练样本采样->特征分析和抽取->算法设计和代码->模型训练和优化(性能评估和度量)->泛化能力评估(重采样和重建模）；算法思路：应用半监督学习思路，先用训练集训练出一个模型，然后用模型给预测集打标签，之后将打上标签的预测集也加入到训练集中用模型再训练，用f1-scror作为性能评估的依据。这个代码和之前比，主要是增加model.predi

2017-06-16 10:00:29 2354

原创【Python学习系列十六】基于scikit-learn库逻辑回归训练模型(delta比赛代码)

delta比赛的场景：给定数据样本，设计模型训练预测二分类结果，并通过f1-score评估结果。比赛中对特征抽取、样本扰动、过拟合、强相关特征、归一化等概念有实际的理解和应用。这里给出的代码是基于逻辑回归训练的模型，代码贴出来主要是用于后续做类似程序的参考，主要是dataframe操作、模型训练、半监督学习思路应用等，如下：# -*- coding: utf-8 -*-import p

2017-06-15 17:03:10 2500

原创【正一专栏】希望才是深深让人绝望的东西-论国足

希望才是深深让人绝望的东西说实话早就对国足失去了信心，但是不到世界杯预选赛结束的那一刻，只有理论上的希望都还是要去争取的。国足虐我千百遍，我待国足如初恋，这就是一个球迷的心。本轮率先结束的一场比赛中伊朗队主场2:0战胜了乌兹别克斯坦队，成为亚洲区第一个进军2018年俄罗斯世界杯的球队。而这也给国足燃起了希望，只要在这轮赛中战胜叙利亚队，那么国足和乌兹别克斯坦的积分差距缩小到4分

2017-06-15 07:32:38 2625

原创机器学习知识点(三十六)分类器性能度量指标f1-score

在用python机器学习库scikit-learn训练模型时，常用f1-score来度量模型性能，下面回顾和学习下这个指标。内容概要¶模型评估的目的及一般评估流程分类准确率的用处及其限制混淆矩阵（confusion matrix）是如何表示一个分类器的性能混淆矩阵中的度量是如何计算的通过改变分类阈值来调整分类器性能ROC曲线的用处曲线下面积（Area Under the Cur

2017-06-15 00:05:01 6490

原创【正一专栏】识时务者为俊杰——致敬杜兰特

识时务者为俊杰——致敬杜兰特勇士在总决赛第四场比赛中没有实现横扫，但是回到主场干净利落地以129:120战胜骑士，总比分4:1赢得了今年的NBA总冠军，这对于勇士来说是一个最好的结果，在主场球迷的欢呼声中庆祝球队的又一个总冠军。而这一切对于杜兰特来说，更像是一个梦幻般的开始，又是对自己的救赎。九年来自己的第一个总决赛冠军，总决赛MVP实至名归，无解的杜兰特。追逐梦想的人，永远值

2017-06-14 09:34:58 2615

原创 Java导入导出CSV文件

场景：导入导出CSV文件1、CSVUtils类package com.delta.gddx;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileOutputStream;import java.io.FileReader;impor

2017-06-13 22:19:14 6424

原创【Python学习系列十五】pandas库DataFrame行列操作使用方法

参考：http://pandas.pydata.org/pandas-docs/stable/api.html#dataframedata['w'] #选择表格中的'w'列，使用类字典属性,返回的是Series类型data.w #选择表格中的'w'列，使用点属性,返回的是Series类型data[['w']] #选择表格中的'w'列，返回的是DataFrame类型data

2017-06-13 16:55:04 7570

原创【Python学习系列十四】IPython命令行式交互界面工具Jupyter

好的IDE对提高编码质量很有帮助，Jupyter Notebook的即编即视效果很有利于调试。IPython 是 Python 的原生交互式 shell 的增强版，可以完成许多不同寻常的任务，比如帮助实现并行化计算；主要使用它提供的交互性帮助，比如代码着色、改进了的命令行回调、制表符完成、宏功能以及改进了的交互式帮助。安装：pip install jupyter安装Anacond

2017-06-13 14:46:11 4153

原创【Python学习系列十三】Python机器学习库scikit-learn实现逻辑回归

逻辑回归基础知识可参考：http://blog.csdn.net/fjssharpsword/article/details/54580552python内部算法已经实现了，最重要是理解y=f(x)的最小化损失函数并通过梯度下降法求解参数。这里通过Python机器学习库scikit-learn实现，代码如下：# -*- coding: utf-8 -*-import numpy a

2017-06-13 08:56:46 3056

原创【Python学习系列十二】Python库pandas之CSV导入

Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。场景：导入csv并关联处理，参考和深入：http://pandas.pydata.org/pan

2017-06-12 21:03:07 4139