自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 资源 (2)
  • 收藏
  • 关注

转载 蓄水池抽样(Reservoir Sampling)

在不知道文件总行数的情况下,如何从文件中随机的抽取一行?  首先想到的是我们做过类似的题目吗?当然,在知道文件行数的情况下,我们可以很容易的用C运行库的rand函数随机的获得一个行数,从而随机的取出一行,但是,当前的情况是不知道行数,这样如何求呢?我们需要一个概念来帮助我们做出猜想,来使得对每一行取出的概率相等,也即随机。这个概念即蓄水池抽样(Reservoir Sampling)。

2015-09-28 17:05:47 599

原创 java程序包含第三方库,在dos下编译和运行

当前目录为src、bin等所在的目录编译dir /b /s src\*.java >list.txtjavac -d bin @list.txt运行java -classpath .;.\lib\mysql-connector-java-5.1.34-bin.jar;.\bin packageName.javaName

2015-04-22 22:14:02 616

转载 各种距离

在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。  本文的目的就是对常用的相似性度量作一个总结。本文目录:1.欧氏距离2.曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离

2015-04-08 21:49:48 491

转载 Python库

xy 1.1.0 xy is a module that gathers all Python(x,y) tools 集成所有python(x,y)包含的函数库和工具xydoc 1.0.3 Collection of all freely available help files and examples on Python language and its libraries pytho

2014-08-15 15:15:01 983

转载 Java指定编码读写文件(UTF-8)

已有更好的方法,详见 Java文件操作类FileManager读取    import java.io.BufferedReader;      import java.io.FileInputStream;      import java.io.InputStreamReader;      String FileContent = ""; // 文件很长的话建

2014-05-08 08:52:37 1659

转载 C++利用CMarkup来解析xml文件

CMarkup这个小型XML的分析器

2014-04-23 10:40:05 641

转载 java中使用正则表达式匹配特殊字符串

Java代码  public static String regexReplace(String str){          Pattern p = null;          Matcher m = null;          String value = null;            // 去掉          p = Pattern.com

2014-03-31 10:51:11 1975

转载 WordNet词网研究——JWI(Java Wordnet Interface)WordNet Java接口

JWI (the MIT Java Wordnet Interface) is a Java library for interfacing with Wordnet. JWI supports access to Wordnet versions 1.6 through 3.0, among other related Wordnet extensions. Wordnet is a fre

2014-03-26 09:54:08 1017

转载 Java Map按键排序和按值排序

Map排序的方式有很多种,这里记录下自己总结的两种比较常用的方式:按键排序(sort by key), 按值排序(sort by value)。按键排序(sort by key)jdk内置的java.util包下的TreeMap既可满足此类需求,原理很简单,其重载的构造器之一有一个参数,该参数接受一个比较器,比较器定义比较规则,比较规则就是作用于Tr

2014-03-12 20:04:07 943

转载 eclipse调试常用技巧

1、 条件断点断点大家都比较熟悉,在Eclipse Java 编辑区的行头双击就会得到一个断点,代码会运行到此处时停止。条件断点,顾名思义就是一个有一定条件的断点,只有满足了用户设置的条件,代码才会在运行到断点处时停止。在断点处点击鼠标右键,选择最后一个"Breakpoint Properties"断点的属性界面及各个选项的意思如下图,2、

2014-03-12 15:41:27 449

原创 利用java对URL进行编码

1. URL编码表backspace %08I %49v %76ó %D3tab %09J %4Aw %77Ô %D4linefeed %0AK %4Bx %78&Ot

2014-03-12 09:37:40 1743

转载 通过stanford-postagger对英文单词进行词性标注

1.models介绍该版本的词性标注工具中有一个models文件夹,该文件夹下有两种类型的文件:.tagger类型和. props类型。其中.tagger类型的文件是词性标注训练出来的模型文件,. props类型是其对应的properties文件。models文件夹下所有的文件如下图:2.程序及说明    这个开源词性标注工具中有三种分类器,english-bidirect

2014-03-10 10:03:46 2513 1

转载 TFIDF算法

TF-IDF算法在两个方面都有重要的作用:1. 提取文章的关键字词 2. 根据关键词检索出相关度高的文本。这个算法被公认为信息检索领域最重要的发明,是很多算法和模型的基础。什么是TF-IDFTF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种 统计方法,用以评估一

2013-11-04 17:21:12 1490

转载 循环赛日程表

问题描述:设有n(n = 2^k)位选手参加网球循环赛,循环赛共进行n-1天,每位选手要与其他n-1位选手比赛一场,且每位选手每天必须比赛一场,不能轮空。试按此要求为比赛安排日程: (1) 每个选手必须与其他n-1个选手各赛一场; (2) 每个选手一天只能赛一场; (3) 循环赛一共进行n-1天。选手第一天第二天第三天第四天第五天第六天第七天1234567821 436587341

2013-11-04 17:08:46 983

转载 关于微软研究院(谢幸、郑宇研究员主导的)“智能城市”“智能生活”研究的一个归纳

微软亚洲研究院基于GPS数据展开的研究工作,取得了另学术界瞩目的成就。从2008年开始每年都在顶级的计算机类会议上有文章发出,掀起了研究GPS数据智能化处理的热潮。       他们的工作由谢幸研究员和郑宇研究员主导。实验数据采集主要有两个工程:1、Geolife工程使用的,170多个志愿者4年左右的GPS轨迹;2、北京市2万多出租车约3个月的行驶轨迹。参见:htt

2013-10-05 15:42:48 1334

转载 信息抽取技术纵览

网上信息抽取技术纵览 (Information Extraction from World Wide Web-A Survey)Line Eikvil 原著 (1999.7) 陈鸿标 译 (2003.3)第一章         导论   信息抽取(Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成 表格一样的组织形式。输入

2013-07-19 10:09:25 2088

转载 HtmlParser提取网页中的纯文本信息

HTMLParser 一个解析web页面的开源类库。         准备学习下搜索方面的技术,就学习了些网络爬虫的知识。最近一直在一个点上困惑,如何提取一个网页上的纯文本信息。要使用正则表达式的话呢,需要考虑很多因素,而且标签也太多,不是很方便,效果也不好。就准备利用开源包,最后选择了HtmlParser。    在网上搜索如何利用HtmlParser提取页面信息。提取的结果

2013-07-11 17:16:09 818

转载 TFIDF算法java实现

一、算法简介        TF-IDF(term frequency–inverse document frequency)。        TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF*IDF,TF词频(Term Frequency),IDF反文档

2013-07-11 15:51:11 800

转载 C++中XML的基本操作

我用的是一种很笨的方法,但可以帮助初学者了解访问xml节点的过程。 已知有一个xml文件(bookstore.xml)如下:oberon’s legacycorets, eva5.951、往节点中插入一个节点:xmldocument xmldoc=new xmldocument();xmldoc.load("bookstore.xml");

2013-06-23 23:41:08 634

转载 参考文献标准格式

参考文献(即引文出处)的类型以单字母方式标识:M——专著,C——论文集,N——报纸文章,J——期刊文章,D——学位论文,R——报告,S——标准,P——专利;对于不属于上述的文献类型,采用字母“Z”标识。参考文献的格式要求很多,一般来说参考文献的格式都要符合国标GB7714-87《文后参考文献著录规则》,但实际中很多出版社和期刊对论文的要求也不尽相同。发现周围的很多人对论文参考文献的规范格式

2013-05-25 15:42:34 3291 1

转载 主要的推荐算法简介

在推荐系统简介中,我们给出了推荐系统的一般框架。很明显,推荐方法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。一、基于内容推荐基于内容的推荐(Content-based Recommendation)是信息过滤技术的延续与发展,它是建立在项目的内

2013-05-02 17:15:00 568

转载 JAVA中连接各种数据库的连接字符串

1.Oracle8/8i/9i数据库(thin模式)Class.forName("oracle.jdbc.driver.OracleDriver").newInstance(); String url="jdbc:oracle:thin:@localhost:1521:orcl"; //orcl为数据库的SID String user="test"; String password

2013-04-29 20:31:11 477

转载 JDK1.6在LINUX下的安装配置

JDK1.6在LINUX下的安装是如何进行的呢,让我们开始我们的演示:Ubuntu Linux下jdk的安装与配置1.JDK1.6安装准备从sun公司网站www.sun.com下载linux版本的jdk,我下载的版本是JDK 6 Update 7,地址http://java.sun.com/javase/downloads/index.jspjdk-6u7-linux-i586

2013-04-23 23:25:16 437

原创 mysql command line client的中文问题

输入 show variables like '%char%输出 修改编码的语句,以及执行结果修改后的结果:自此,就可以识别中文了!

2013-04-15 21:03:24 960

structs2.3.7.chm

这个文档是structs2.3.7的英文版的api文档

2013-04-11

w3school系列教程

w3school的在线教程,是web方向很全面的学习教程

2013-03-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除