自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 java - try with resource

try with resource有个比较好的特性,try()中打开的资源在程序执行完后自动关闭,不用手动写资源关闭的代码。例如:try (Session session = driver.session()) {}但是这是1.5之后的新特性,需要设置java的language level为1.5以上。https://docs.oracle.com/javase/tutorial/essentia...

2018-03-09 10:25:52 2772 1

原创 jiebaR - 中文分词

http://qinwenfeng.com/jiebaR/library(jiebaR)wkr = worker()segment("今天天气好晴朗", wkr)library(jiebaR)library(sqldf)TA = read.csv('R/table-A.csv', header = TRUE, sep = ",")txtdf = TA$BAK_TXTTA$BAK_TXT <-...

2018-02-28 17:25:30 639

原创 信息增益率

单个随机变量的熵为该随机变量的不确定度。对于属性A,它的熵由以下公式计算:(4)其中,P(a)是属性A的概率分布。对于分类信息的信息熵H(class)同样由公式(4)计算得出。在属性A在class条件下的熵,条件熵H(class|A)由以下公式计算:(5)其中,P(l,a)为class与A的联合概率分布,P(l|a) 为class与A的条件概率分布。信息增益是由另一随机变量导致的原随机变量不确定度...

2018-02-27 10:58:33 654

原创 模型评估

https://en.wikipedia.org/wiki/Precision_and_recall精度预测为positve的占所有预测为positive的比例。Recall = t p t p + f n {\displaystyle {\text{Recall}}={\frac {tp}{tp+fn}}\,}召回率预测为positve的占实际positive的比例。准确率预测positive和...

2018-02-27 10:54:46 848

原创 R - dplyr 包

新增列 MutateMutate is used to add new variables to the data. For example lets adds a new column that displays the temperature in Celsius.mutate(airquality, TempInC = (Temp - 32) * 5 / 9)抽样 SampleThe sam...

2018-02-27 10:53:50 222

原创 c50 code called exit with value 1

原因:特征为factor的列有空值。查看空值列:levels(train$Embarked)解决方法:修改空值列为“missing”levels(train$Embarked)[1] = "missing"参考:http://www.mzan.com/article/22803310-c5-0-decision-tree-c50-code-called-exit-with-value-1.shtm...

2018-02-27 10:52:38 1618 1

原创 R- factor因子

因子(factor)类别属性,只有有限数量的值。The term factor refers to a statistical data type used to store categorical variables. The difference between a categorical variable and a continuous variable is that a categor...

2018-02-27 10:32:14 381

原创 R-NA值处理

#NA值替换#rs$beg_dif为需要替换的column.rs$beg_dif[is.na(rs$beg_dif)] <- 0#查找NA值的row number#which(is.na(rs$beg_dif ))#消除所有包含NA值的行#df <- na.omit(df)

2018-02-27 10:26:47 500

原创 R - 抽样

library(dplyr)df = read.csv('R/play.csv')#通过subset获取子集ydf <- subset(df, Play == "yes")ndf <- subset(df, Play == "no" )#通过sample_n随机抽样ysample <- sample_n(ydf, 5)nsample <- sample_n(ndf, 5)#...

2018-02-27 10:25:32 285

原创 R - sqldf

R的sqldf包能对dataframe进行sql操作,对于习惯用sql的人来说比较方便。library(sqldf)TA <- read.csv('table-A.csv', header = TRUE, sep = ",")TB <- read.csv('table-B.csv', header = TRUE, sep = ",")#mergedData <- mer...

2018-02-27 09:49:55 3674

原创 R-基础概念

1. 赋值  “<-”   不推荐使用“=”赋值。2. 注释: #”3. R大小写敏感。4.下标从1开始,不是从0.运算符Addition: +Subtraction: -Multiplication: *Division: /Exponentiation: ^Modulo: %%数据类型:Decimals values like 4.5 are called numerics.Natura...

2018-02-27 09:33:39 229

原创 R - csv读写

注意:csv数据“,”后面的空格也会被算入新的字段,","前后不要有空格。读取csv文件加载为dataframe:df <- read.csv('play.csv', header = TRUE, sep = ",")查看内容:> df Outlook Temperature Humidity Windy Play1 sunny hot high...

2018-02-27 09:24:31 1243

原创 R-dataframe常用操作

获取数据维度> dim(df)[1] 14 5获取数据结构> str(df)'data.frame': 14 obs. of 5 variables: $ Outlook : Factor w/ 3 levels "overcast","rainy",..: 3 3 1 2 2 2 1 3 3 2 ... $ Temperature: Factor w/ 3 lev...

2018-02-27 09:19:44 2238

原创 由外向内顺时针&逆时针旋转矩阵

代码如下:#include using namespace ::std;#define N 10int a[N][N];void InitSeq( int n ){ int value = 1; int i, j; for( i = 0; i < n/2; i++ ) // n/2是圈数 { for( j = i; j < n - i;

2013-05-28 21:09:15 4016

原创 由内向外顺时针旋转队列&逆时针旋转队列

代码如下:#include using namespace ::std;int max(int n1, int n2){ return n1 > n2 ? n1 : n2;}int abs(int x){ return x > 0 ? x : -x;}int spiral(int x, int y) //根据坐标得出当前值{ int

2013-05-28 16:46:47 1373

原创 数据结构与算法分析C语言版-第10章289页:将递归算法改为时间复杂度为O(n)的非递归算法

#include using namespace ::std;double Eval( int N ) //递归方法{ int i; double Sum; if( N == 0 ) return 1.0; else { Sum = 0.0; for( i = 0; i < N; i++ )

2013-05-10 10:16:42 822

原创 两个数组A、B,求在A中出现而不在B中的数(求不相交集)

#include using namespace std;#define M 6#define N 4void CompArr( int arr1[], int arr2[] ){ int meet; for( int i = 0; i < M; i++ ) { meet = 0; for( int j = 0; j < N; j++ ) { if( arr

2013-04-27 20:54:04 2812

原创 左旋字符串源码

#include using namespace std;void Reverse( char *pBegin, char *pEnd ){ if( pBegin == NULL || pEnd == NULL ) return; while( pBegin < pEnd ) { char tmp = *pBegin; *pBegin = *pEn

2013-04-27 09:46:12 674

原创 字符串反转C++实现源码(带测试用例)

将字符串字符顺序反转:#include using namespace std;void Reverse( char *pBegin, char *pEnd ){ if( pBegin == NULL || pEnd == NULL ) return; while( pBegin < pEnd ) { char tmp = *pBegin; *pBegin

2013-04-26 09:37:38 1522

原创 优先队列(堆)C++实现源码

堆是一棵完全二叉树,最小元素在根结点上,任意子树也是一个堆。对于堆中的任意一个位置i上的元素,其左儿子在2i位置上,右儿子在2i+1位置上,它的父节点在 2/i 位置上。堆的插入:为了保持堆为完全二叉树,在堆的最后一个位置创建空结点,如果空结点的父节点大于要插入的结点,就将父节点移入空结点中,依此类推,直到要插入的结点能放入移空的位置中。堆的删除(删除根结点,也就是最小的元素):将

2013-04-25 15:50:37 1290

原创 二叉搜索树C++实现源码

二叉搜索树的性质是:对树中的每个结点X,它的左子树的值小于X,它的右子树的值大于X。 BinaryTree.h#include "Utility.h"//typedef struct TreeNode *PtrToNode;typedef struct TreeNode *Position;typedef struct TreeNode *SearchTree;st

2013-04-23 16:05:08 794

原创 用链表实现栈C++实现源码

头文件://Stack.hstruct node;typedef struct node *Stack;Stack CreateStack();void Push( int, Stack );void PrintStack( Stack );void Pop(Stack);int StackLength( Stack ); 源文件://Stack

2013-04-19 16:21:14 1890

原创 Ubuntu下将Sublime加入环境变量

听人推荐用Sublime编辑器,用了一下确实比vim方便很多。解压以后直接就可以用,但是要切换到其路径下很不方便,就将sublime的路径加入环境变量中,以后要使用直接输入sublime就好了。sublime_text可执行文件在/root/Downloads/Sublime Text 2目录下,为了以后直接输入sublime执行sublime_text,在终端输入以下内容:# cp su

2013-04-19 16:09:51 2174

原创 Python日期操作date,计算到特定日期的时间。

今年九月份就要找工作了,为了做好规划,先计算一下还有多少时间。为了精确到天,就写个脚本算一下吧。#导入日期模块>>> import time>>> from datetime import date#算一下今儿是几号>>> today = date.today()>>> todaydatetime.date(2013, 3, 5)#今年九月份就要开始找工作了

2013-03-05 15:25:20 1322

翻译 ACM 算法题:Parencodings

对于正常的括号对序列,也就是左括号与右括号的数目是相等的,并且成对。例如(((()()()))),总共有n个括号。通过两种形式对括号对编码:P序列:P = p1 p2 … pn Pi是第i个右括号之前左括号的数目。W序列:W = w1 w2 … wn Wi是第i个右括号与之匹配及其包含的左括号的数目。要求:写一个算法,将括号对的P序列转换成W序列。

2013-03-01 16:39:53 849

原创 Linux系统中VMware Tools 安装

首先在VMware中选择VM->Install VMware Tools。一个虚拟的CDROM就会被挂载在Linux中。切换到cdrom目录下:#  cd /mnt/cdrom/由于要将安装文件解压,先将该目录下的VMwareTools-8.4.4-301548.tar.gz拷到根目录下:#  cp VMwareTools-8.4.4-301548.tar.gz切换到根目录下,

2013-02-27 23:22:55 695

原创 Red Hat Linux创建普通用户&&普通用户与超级用户root切换

在命令行终端下操作。1.添加普通用户:# add user [username]# passwd [username] [password]2.从超级用户root切换为普通用户:# su [username]切换回超级用户:$ exit注:# 表示其后为root用户键入的命令。        $表示其后为普通用户键入的命令。        [

2013-02-27 09:51:25 15451

原创 Ubuntu创建超级用户root

以普通用户身份登录Ubuntu。$ sudo passwd根据提示,输入当前用户的密码。输入超级用户的密码。再次输入超级用户的密码。$ su输入超级用户密码,在当前终端即可更换为超级用户的身份。也可以注销,然后以超级用户登录。在登录窗口,输入用户名root,再输入超级用户密码。注:$表示其后是需要键入的命令。

2013-02-26 10:48:06 23917

转载 数学中常用希腊字母读法

1      Α      α    alpha       a:lf         阿尔法2      Β      β    beta        bet          贝塔3      Γ      γ    gamma       ga:m         伽马4      Δ      δ    delta       delt         德尔塔5

2012-12-19 11:37:53 3103

转载 五款开源的数据挖掘软件

OrangeOrange 是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,基绑定了Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。其由C++ 和 Python开发,它的图形库是由跨平台的Qt框架开发。RapidMinerRapi

2012-12-13 17:42:59 1351

原创 数据挖掘十大经典算法学习之K均值(K-means)聚类算法

基本概念•       监督学习vs.无监督学习Ø  监督学习: 发现数据属性与类别属性之间的关联模式。 –      通过利用这些模式来预测未知数据实例的类别属性。 Ø  无监督学习: 没有类别属性. –      希望探索数据以发现其中的内在结构。无监督学习包括聚类、关联规则等。•       K-均值聚类算法是最著名的划分聚类算法。Ø  设实例的集合D为{x1

2012-12-05 09:41:45 7506 1

原创 数据挖掘十大经典算法学习之C4.5决策树分类算法及信息熵相关

Definition决策树学习时应用最广的归纳推理算法之一。[1]它是一种逼近离散值函数的方法,对噪声数据有很好的健壮性且能够学习析取表达式。CLS, ID3,C4.5,CART均是决策树学习算法。[1]归纳学习成立存在一个基本假设:任一假设如果在足够大的训练样例集中很好地逼近目标函数,它也能在未见实例中很好地逼近目标函数。“泛化能力”决策树学习的归纳偏置是优先选择较小的树。决策树

2012-11-29 21:48:18 13805 2

原创 数据挖掘十大经典算法学习之Adaboost自适应增强学习算法

定义The strong and weak learnability are equivalent.--Kearns and Valiant(1989)强分类器和弱分类器是相同的,多个弱分类器组合可以达到强分类器的效果。通过迭代生成一列分类器,每个分类器都依赖于之前的一个,之前分类器错分的样本被赋予更高的权重。训练数据集D为 {(x1,y1,w1),( x2,y2,w2),…,(

2012-11-26 22:07:51 7989 1

原创 数据挖掘工具Weka之数据格式ARFF及CSV文件格式转换

Weka介绍:Weka是一个用Java编写的数据挖掘工具,能够运行在各种平台上。它不仅提供了可以直接用于数据挖掘的软件,还提供了src代码,使用者可以修改源代码,进行二次开发。但是,由于其使用了Java虚拟机,导致其不适合处理大型数据,运行缓慢。处理超过一定大小数据,还会溢出heap size,使程序崩溃。但作为初学者,很适合通过处理一些小型数据集,以直观地了解各种数据挖掘方法。它还自带一些典

2012-11-23 10:31:14 24265

原创 数据挖掘十大经典算法学习之Naive Bayes朴素贝叶斯

贝叶斯方法的提出:正概率问题:假如袋子里有M个黑球、N给白球,你伸手进去摸一个,摸出黑球的概率有多大?摸出白球的的概率有多大?解答:黑球概率P(A)=M/(M+N) ,白球概率P(B)=N/(M+N)。——(1)逆概率问题:事先不知道袋子里有多少个黑球、多少个白球,你怎样通过实验,预测黑白球的比例?解答:采用不放回地摸取,摸出k个球,其中m个黑球,n个白球,通过计算m、n占k的

2012-11-22 16:50:43 6657 7

原创 MSDN无法打开。此计算机中未配置默认浏览器。需安装、配置默认浏览器才能显示帮助。

今天使用Visual Studio 2010时,想查看帮助文件。却无法打开,弹出提示“此计算机中未配置默认浏览器。需安装、配置默认浏览器才能显示帮助。”先手动设置IE为默认浏览器,仍旧弹出该提示。然后,使用电脑管家,默认程序设置,设置上网浏览器为IE,点击应用,显示设置失败。查了一些资料,发现可能是注册表键值出了问题。运行“regedit”,打开注册表。打开HKEY_CLA

2012-11-21 21:50:20 3793

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除