vshadow-CSDN博客

原创 java - try with resource

try with resource有个比较好的特性，try()中打开的资源在程序执行完后自动关闭，不用手动写资源关闭的代码。例如：try (Session session = driver.session()) {}但是这是1.5之后的新特性，需要设置java的language level为1.5以上。https://docs.oracle.com/javase/tutorial/essentia...

2018-03-09 10:25:52 2843 1

原创 jiebaR - 中文分词

http://qinwenfeng.com/jiebaR/library(jiebaR)wkr = worker()segment("今天天气好晴朗", wkr)library(jiebaR)library(sqldf)TA = read.csv('R/table-A.csv', header = TRUE, sep = ",")txtdf = TA$BAK_TXTTA$BAK_TXT <-...

2018-02-28 17:25:30 739

原创信息增益率

单个随机变量的熵为该随机变量的不确定度。对于属性A，它的熵由以下公式计算：(4)其中，P(a)是属性A的概率分布。对于分类信息的信息熵H(class)同样由公式(4)计算得出。在属性A在class条件下的熵，条件熵H(class|A)由以下公式计算：(5)其中，P(l,a)为class与A的联合概率分布，P(l|a) 为class与A的条件概率分布。信息增益是由另一随机变量导致的原随机变量不确定度...

2018-02-27 10:58:33 772

原创模型评估

https://en.wikipedia.org/wiki/Precision_and_recall精度预测为positve的占所有预测为positive的比例。Recall = t p t p + f n {\displaystyle {\text{Recall}}={\frac {tp}{tp+fn}}\,}召回率预测为positve的占实际positive的比例。准确率预测positive和...

2018-02-27 10:54:46 895

原创 R - dplyr 包

新增列 MutateMutate is used to add new variables to the data. For example lets adds a new column that displays the temperature in Celsius.mutate(airquality, TempInC = (Temp - 32) * 5 / 9)抽样 SampleThe sam...

2018-02-27 10:53:50 257

原创 c50 code called exit with value 1

原因：特征为factor的列有空值。查看空值列：levels(train$Embarked)解决方法：修改空值列为“missing”levels(train$Embarked)[1] = "missing"参考：http://www.mzan.com/article/22803310-c5-0-decision-tree-c50-code-called-exit-with-value-1.shtm...

2018-02-27 10:52:38 1676 1

原创 R- factor因子

因子(factor)类别属性，只有有限数量的值。The term factor refers to a statistical data type used to store categorical variables. The difference between a categorical variable and a continuous variable is that a categor...

2018-02-27 10:32:14 442

原创 R-NA值处理

#NA值替换#rs$beg_dif为需要替换的column.rs$beg_dif[is.na(rs$beg_dif)] <- 0#查找NA值的row number#which(is.na(rs$beg_dif ))#消除所有包含NA值的行#df <- na.omit(df)

2018-02-27 10:26:47 552

原创 R - 抽样

library(dplyr)df = read.csv('R/play.csv')#通过subset获取子集ydf <- subset(df, Play == "yes")ndf <- subset(df, Play == "no" )#通过sample_n随机抽样ysample <- sample_n(ydf, 5)nsample <- sample_n(ndf, 5)#...

2018-02-27 10:25:32 321

原创 R - sqldf

R的sqldf包能对dataframe进行sql操作，对于习惯用sql的人来说比较方便。library(sqldf)TA <- read.csv('table-A.csv', header = TRUE, sep = ",")TB <- read.csv('table-B.csv', header = TRUE, sep = ",")#mergedData <- mer...

2018-02-27 09:49:55 3716

原创 R-基础概念

1. 赋值 “<-” 不推荐使用“=”赋值。2. 注释： #”3. R大小写敏感。4.下标从1开始，不是从0.运算符Addition: +Subtraction: -Multiplication: *Division: /Exponentiation: ^Modulo: %%数据类型：Decimals values like 4.5 are called numerics.Natura...

2018-02-27 09:33:39 256

原创 R - csv读写

注意：csv数据“,”后面的空格也会被算入新的字段，","前后不要有空格。读取csv文件加载为dataframe:df <- read.csv('play.csv', header = TRUE, sep = ",")查看内容：> df Outlook Temperature Humidity Windy Play1 sunny hot high...

2018-02-27 09:24:31 1321

原创 R-dataframe常用操作

获取数据维度> dim(df)[1] 14 5获取数据结构> str(df)'data.frame': 14 obs. of 5 variables: $ Outlook : Factor w/ 3 levels "overcast","rainy",..: 3 3 1 2 2 2 1 3 3 2 ... $ Temperature: Factor w/ 3 lev...

2018-02-27 09:19:44 2284

原创由外向内顺时针&逆时针旋转矩阵

代码如下：#include using namespace ::std;#define N 10int a[N][N];void InitSeq( int n ){ int value = 1; int i, j; for( i = 0; i < n/2; i++ ) // n/2是圈数 { for( j = i; j < n - i;

2013-05-28 21:09:15 4077

原创由内向外顺时针旋转队列&逆时针旋转队列

代码如下：#include using namespace ::std;int max(int n1, int n2){ return n1 > n2 ? n1 : n2;}int abs(int x){ return x > 0 ? x : -x;}int spiral(int x, int y) //根据坐标得出当前值{ int

2013-05-28 16:46:47 1410

原创数据结构与算法分析C语言版-第10章289页：将递归算法改为时间复杂度为O(n)的非递归算法

#include using namespace ::std;double Eval( int N ) //递归方法{ int i; double Sum; if( N == 0 ) return 1.0; else { Sum = 0.0; for( i = 0; i < N; i++ )

2013-05-10 10:16:42 852

原创两个数组A、B，求在A中出现而不在B中的数（求不相交集）

#include using namespace std;#define M 6#define N 4void CompArr( int arr1[], int arr2[] ){ int meet; for( int i = 0; i < M; i++ ) { meet = 0; for( int j = 0; j < N; j++ ) { if( arr

2013-04-27 20:54:04 2905

原创左旋字符串源码

#include using namespace std;void Reverse( char *pBegin, char *pEnd ){ if( pBegin == NULL || pEnd == NULL ) return; while( pBegin < pEnd ) { char tmp = *pBegin; *pBegin = *pEn

2013-04-27 09:46:12 702

原创字符串反转C++实现源码（带测试用例）

将字符串字符顺序反转：#include using namespace std;void Reverse( char *pBegin, char *pEnd ){ if( pBegin == NULL || pEnd == NULL ) return; while( pBegin < pEnd ) { char tmp = *pBegin; *pBegin

2013-04-26 09:37:38 1562

原创优先队列（堆）C++实现源码

堆是一棵完全二叉树，最小元素在根结点上，任意子树也是一个堆。对于堆中的任意一个位置i上的元素，其左儿子在2i位置上，右儿子在2i+1位置上，它的父节点在 2/i 位置上。堆的插入：为了保持堆为完全二叉树，在堆的最后一个位置创建空结点，如果空结点的父节点大于要插入的结点，就将父节点移入空结点中，依此类推，直到要插入的结点能放入移空的位置中。堆的删除（删除根结点，也就是最小的元素）：将

2013-04-25 15:50:37 1344

原创二叉搜索树C++实现源码

二叉搜索树的性质是：对树中的每个结点X，它的左子树的值小于X，它的右子树的值大于X。 BinaryTree.h#include "Utility.h"//typedef struct TreeNode *PtrToNode;typedef struct TreeNode *Position;typedef struct TreeNode *SearchTree;st

2013-04-23 16:05:08 814

原创用链表实现栈C++实现源码

头文件：//Stack.hstruct node;typedef struct node *Stack;Stack CreateStack();void Push( int, Stack );void PrintStack( Stack );void Pop(Stack);int StackLength( Stack ); 源文件：//Stack

2013-04-19 16:21:14 1935

原创 Ubuntu下将Sublime加入环境变量

听人推荐用Sublime编辑器，用了一下确实比vim方便很多。解压以后直接就可以用，但是要切换到其路径下很不方便，就将sublime的路径加入环境变量中，以后要使用直接输入sublime就好了。sublime_text可执行文件在/root/Downloads/Sublime Text 2目录下，为了以后直接输入sublime执行sublime_text，在终端输入以下内容：# cp su

2013-04-19 16:09:51 2230

原创 Python日期操作date，计算到特定日期的时间。

今年九月份就要找工作了，为了做好规划，先计算一下还有多少时间。为了精确到天，就写个脚本算一下吧。#导入日期模块>>> import time>>> from datetime import date#算一下今儿是几号>>> today = date.today()>>> todaydatetime.date(2013, 3, 5)#今年九月份就要开始找工作了

2013-03-05 15:25:20 1402

翻译 ACM 算法题：Parencodings

对于正常的括号对序列，也就是左括号与右括号的数目是相等的，并且成对。例如(((()()())))，总共有n个括号。通过两种形式对括号对编码：P序列：P = p1 p2 … pn Pi是第i个右括号之前左括号的数目。W序列：W = w1 w2 … wn Wi是第i个右括号与之匹配及其包含的左括号的数目。要求：写一个算法，将括号对的P序列转换成W序列。

2013-03-01 16:39:53 888

原创 Linux系统中VMware Tools 安装

首先在VMware中选择VM->Install VMware Tools。一个虚拟的CDROM就会被挂载在Linux中。切换到cdrom目录下：# cd /mnt/cdrom/由于要将安装文件解压，先将该目录下的VMwareTools-8.4.4-301548.tar.gz拷到根目录下：# cp VMwareTools-8.4.4-301548.tar.gz切换到根目录下，

2013-02-27 23:22:55 732

原创 Red Hat Linux创建普通用户&&普通用户与超级用户root切换

在命令行终端下操作。1.添加普通用户：# add user [username]# passwd [username] [password]2.从超级用户root切换为普通用户：# su [username]切换回超级用户：$ exit注：# 表示其后为root用户键入的命令。 $表示其后为普通用户键入的命令。 [

2013-02-27 09:51:25 15725

原创 Ubuntu创建超级用户root

以普通用户身份登录Ubuntu。$ sudo passwd根据提示，输入当前用户的密码。输入超级用户的密码。再次输入超级用户的密码。$ su输入超级用户密码，在当前终端即可更换为超级用户的身份。也可以注销，然后以超级用户登录。在登录窗口，输入用户名root，再输入超级用户密码。注：$表示其后是需要键入的命令。

2013-02-26 10:48:06 24100

转载数学中常用希腊字母读法

1 Α α alpha a:lf 阿尔法2 Β β beta bet 贝塔3 Γ γ gamma ga:m 伽马4 Δ δ delta delt 德尔塔5

2012-12-19 11:37:53 3318

转载五款开源的数据挖掘软件

OrangeOrange 是一个基于组件的数据挖掘和机器学习软件套装，它的功能即友好，又很强大，快速而又多功能的可视化编程前端，以便浏览数据分析和可视化，基绑定了Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理，并提供了数据帐目，过渡，建模，模式评估和勘探的功能。其由C++ 和 Python开发，它的图形库是由跨平台的Qt框架开发。RapidMinerRapi

2012-12-13 17:42:59 1419

原创数据挖掘十大经典算法学习之K均值（K-means）聚类算法

基本概念• 监督学习vs.无监督学习Ø 监督学习: 发现数据属性与类别属性之间的关联模式。 – 通过利用这些模式来预测未知数据实例的类别属性。 Ø 无监督学习: 没有类别属性. – 希望探索数据以发现其中的内在结构。无监督学习包括聚类、关联规则等。• K-均值聚类算法是最著名的划分聚类算法。Ø 设实例的集合D为{x1

2012-12-05 09:41:45 7596

原创数据挖掘十大经典算法学习之C4.5决策树分类算法及信息熵相关

Definition决策树学习时应用最广的归纳推理算法之一。[1]它是一种逼近离散值函数的方法，对噪声数据有很好的健壮性且能够学习析取表达式。CLS， ID3，C4.5，CART均是决策树学习算法。[1]归纳学习成立存在一个基本假设：任一假设如果在足够大的训练样例集中很好地逼近目标函数，它也能在未见实例中很好地逼近目标函数。“泛化能力”决策树学习的归纳偏置是优先选择较小的树。决策树

2012-11-29 21:48:18 13885

原创数据挖掘十大经典算法学习之Adaboost自适应增强学习算法

定义The strong and weak learnability are equivalent.--Kearns and Valiant(1989)强分类器和弱分类器是相同的，多个弱分类器组合可以达到强分类器的效果。通过迭代生成一列分类器，每个分类器都依赖于之前的一个，之前分类器错分的样本被赋予更高的权重。训练数据集D为 {(x1,y1,w1),( x2,y2,w2),…,(

2012-11-26 22:07:51 8079 1

原创数据挖掘工具Weka之数据格式ARFF及CSV文件格式转换

Weka介绍：Weka是一个用Java编写的数据挖掘工具，能够运行在各种平台上。它不仅提供了可以直接用于数据挖掘的软件，还提供了src代码，使用者可以修改源代码，进行二次开发。但是，由于其使用了Java虚拟机，导致其不适合处理大型数据，运行缓慢。处理超过一定大小数据，还会溢出heap size，使程序崩溃。但作为初学者，很适合通过处理一些小型数据集，以直观地了解各种数据挖掘方法。它还自带一些典

2012-11-23 10:31:14 24495

原创数据挖掘十大经典算法学习之Naive Bayes朴素贝叶斯

贝叶斯方法的提出：正概率问题：假如袋子里有M个黑球、N给白球，你伸手进去摸一个，摸出黑球的概率有多大？摸出白球的的概率有多大？解答：黑球概率P(A)=M/(M+N) ，白球概率P(B)=N/(M+N)。——(1)逆概率问题：事先不知道袋子里有多少个黑球、多少个白球，你怎样通过实验，预测黑白球的比例？解答：采用不放回地摸取，摸出k个球，其中m个黑球，n个白球，通过计算m、n占k的

2012-11-22 16:50:43 6719

原创 MSDN无法打开。此计算机中未配置默认浏览器。需安装、配置默认浏览器才能显示帮助。

今天使用Visual Studio 2010时，想查看帮助文件。却无法打开，弹出提示“此计算机中未配置默认浏览器。需安装、配置默认浏览器才能显示帮助。”先手动设置IE为默认浏览器，仍旧弹出该提示。然后，使用电脑管家，默认程序设置，设置上网浏览器为IE，点击应用，显示设置失败。查了一些资料，发现可能是注册表键值出了问题。运行“regedit”，打开注册表。打开HKEY_CLA

2012-11-21 21:50:20 3851

vshadow的专栏