自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

cleverbegin的专栏

Java JSP R Linux

  • 博客(41)
  • 资源 (8)
  • 收藏
  • 关注

转载 线性规划

glpk                                                                       http://www.gnu.org/software/glpk/glpk.html                                 The GLPK package includes the following main

2014-03-31 10:32:25 1814

转载 解决 Ubuntu 下风扇一直高速旋转的方法

刚接触Linux时就是用的Ubuntu,很喜欢它。但是每次进入ubuntu后,即使我什么都不做,笔记本的风扇都会高速的旋转,发出“呼呼”的响声(唉,Ubuntu的缺陷啊)。起初我是没注意到的,但是后来总会在不经意间听到电脑高速运转的响声。影响心情不说,这样也会对电脑造成很大的负担,谁可以在不休息的情况下一直工作,那不累趴下才怪。所以就到网上找了好多资料,好像解决方法还有好多种。

2014-03-30 20:14:24 3586

转载 Heritrix —— eclipse 安装与配置

1.Heritrix 下载    Heritrix使用的是1.14.4(2010-5-10 发布),从SourceForge(http://sourceforge.net/projects/archive-crawler/files/)上下载。每个版本都有四个压缩包,两个 .tar.gz 包用于 Linux 下,.zip 用于 windows 下。其中heritrix-1.14.4.zip

2014-03-29 16:19:54 928

原创 爬虫 Heritrix 学习笔记 —— Heritrix安装与简单配置

Heritrix安装与简单配置                由于项目需要,需要利用爬虫在互联网上爬取数据,在 Nutch 与 Heritrix 之间选择了 Heritrix,前段时间自己写了一个爬虫,效率太低了,不过对于爬虫的基本情况已经心中有算,现在利用别人写的爬虫,而且是经过考验的,自然效率会比自己写的高很多。至于 Nutch 与 Heritrix 的比较就暂不讨论了。第

2014-03-29 15:46:16 1661

原创 ssh传递本地文件到服务器

scp works/guangyao/rworkplace/.RData clebeg@202.38.221.21:/home/clebeg/桌面/R/rworkplace

2014-03-23 20:41:39 918

原创 R语言与多元统计分析 —— 多元正态分布

1、如何用R语言画二元正态分布的曲面图形下面主要用两种技术来实现:注意:z 的列维是 y 的长度,行维是 x 的长度(即 z 包含每一种可能的 (x, y) 点 的值)        第一种使用 persp(x, y, z)函数:下面看代码fn = function(x, y) { sigma <- matrix(c(20,0,0,20), c(2,2)) u <- c

2014-03-20 16:27:53 24000 3

原创 算法学习笔记 —— MergeSort 的一种循环实现

public class MergeSort { public static void main(String[] args) { int[] dealArray = new int[]{11, 22, 5, 3, 6, 1, 10, 7, 8}; mergeSort(dealArray, 9);//注意此处传递的是对象 for(int i = 0; i < 9; i++)

2014-03-18 23:03:19 751

原创 RMySQL学习笔记——RMySQL基本操作

RMySQL基本操作:下面列出 RMySQL 的基本操作,基本上都会列出相应的SQL语句:注意以 “mysql> ” 开头的就是对应的SQL语句1、连接数据库> con <- dbConnect(MySQL(), user="root", password="", dbname="test", host="localhost.localdomain")//相当与SQL

2014-03-14 17:56:46 1080

原创 Chrome插件开发学习——开发实战

一、为了获取用户点击时候的信息,用 js 很容易实现 content.js (注意必须写成单独的js页而且需要在manifest.json 里面注册)1、如何注册呢?任意一个模式匹配本质上都是一个以认可的协议(例如:http, https, file, ftp 或者chrome-extension)开头的URL,只是URL你可以包含"*"字符.这里有一种特殊的模式匹配,它表示所有已认

2014-03-14 16:34:43 1124

原创 Chrome插件开发学习——开发进阶

一、应用场景描述?最近在做爬虫,想要对爬到的网页进行分析!最要做两块分析:第一:链接分析 链接分析主要是如下流程step1:分析是否从某个页面中提取链接(列表页需要提取链接,内容页不需要提取)step2:提取某个范围内的链接(比如说正文链接 此时需要匹配模板 比如是否循环匹配)step3:过滤某些链接 因为模板不可能做到过滤出的东西完全符合我们的需求,所以还需要经过一定的删选比如:链接

2014-03-14 16:34:41 752

原创 Chrome插件开发学习——开发入门

一、如何快速开发一个 Chrome 插件,根据 Chrome 官方网站上面的教程可以快速开发一个小插件Chrome官方开发文档地址:http://code.google.com/chrome/extensions/dev/devguide.html具体对其中每一个步骤的理解:第一步:新建一个文件夹,准备一个图标,建议128×128大小的。然后创建一个文件,命名为manifest.

2014-03-14 16:34:39 844

原创 Java学习笔记——相对路径研究

一、为什么需要研究相对路径?在写程序的时候,很难避免不去写配置信息,如何才能保证配置信息,在你的java程序移植到其他平台上面是,还是可以正确读取你写的配置信息呢?如果你使用绝对路径,那你就惨了,万一别人的电脑连C盘都没有,是linux主机怎么办?这个时候就要学会使用相对路径二、java相对路径的特点java相对路径是指相对于 java 文件的路径,而且提倡使用 / 因为java虚拟机会

2014-03-14 16:34:37 674

原创 solr查询——根据时间范围查询

一、今天为了满足系统对时间范围查询的需求,开始研究怎么用 solr 对时间建立索引查看 solr 示例 schema.xml ,发现里面有 date 类型,但是 date类型到底怎么用呢?于是自己就写了一个测试代码。二、测试过程分析第一次测试:首先指望 solr可以识别所有的时间格式的字符串,想想也是可笑的?试了一下,果然报错,你随便给它一个时间(比如:2013-04-25),运行时报

2014-03-14 16:34:34 15828

原创 怎么在windows下面使用git

tortoise 乌龟是一个系列,帮助用户使用 git 和 svn, 先下载 git 的客服端,然后下载 tortoisegit就可以在windows 下面用图形方式操作git了,但是学习在linux 下面用命令行使用git 也是必须的技能

2014-03-14 16:34:32 632

转载 solr的客户端调用solrj

public class SolrJUtils {private static final String baseURL ="http://192.168.241.128:8080/solr";// solr服务器urlprivate static SolrServer solrServer = newHttpSolrServer(baseURL);public static voi

2014-03-14 16:34:30 849

原创 用solrj操作solr

import java.io.IOException;import java.net.MalformedURLException;import java.sql.ResultSet;import java.sql.ResultSetMetaData;import java.sql.SQLException;import java.sql.Types;import java.util.A

2014-03-14 16:34:28 744

原创 用solr操作solr——2

一、javabean 的写法如下:import org.apache.solr.client.solrj.beans.Field;public class TestDataBean {@Fieldprivate String id;@Field("title")private String title;@Field("cat")private String cat;publi

2014-03-14 16:34:26 697

原创 用solrj操作solr之HttpSolrServer

一、用 HttpSolrServer 操作solr 之环境搭建下载好了 solr-XXX.zip 包之后,解压就会看到 dist 目录,该目录就是开发环境 jar包所在地方。现在需要使用 solrj 操作 solr,所以需要把solr-solrj-4.4.0.jar已经solrj-lib目录下的所有jar 包都要构建到开发路径中去。二、下面开始操作 solr第一步:肯定是用 sol

2014-03-14 16:34:24 8349 1

原创 如何使用solr对文件建立索引

使用Solrj操作Solr从上面的步骤中可以看出Solr提供了一个企业搜索引擎平台的核心,可以通过他的接口进行索引的创建、修改、删除。并提交关键字进行搜索。但如果要真正的投入使用,还是有不和工作需要做,如:1、对向Solr提交索引进行一定的封装以方便业务系统进行操作2、对搜索进行封装,以方便结果的展现分析等等。Solrj是使用java编写的一个操作Solr的工具,方便于进行索引的更

2014-03-14 16:34:21 4036

原创 Solr4.2安装IK中文分词器

版本:2012-FFhotfix 1  下载地址:https://code.google.com/p/ik-analyzer/downloads/detail?name=IKAnalyzer 2012FF_hf1.zip&can=2&q=  1.将 IKAnalyzer.cfg.xml,IKAnalyzer2012FF_u1.jar,stopword.dic拷贝到tomcat的/we

2014-03-14 16:34:19 938

原创 Solr4.2+Tomcat7配置——solr

solr 的好处我就不多说了!下面讲解怎么在 tomcat 中配置 solr一、安装 tomcat 下载 tomcat -> 解压到指定文件夹 -> 以 startcatalina.bat 或者 sh catalina.sh 启动tomcat如果没有报错,那就装好了,如果报错,就解决 一直到不报错-> 然后以 startstartup.bat 启动 ok 二、下载 solr 下载

2014-03-14 16:34:17 1071

原创 Ubuntu本机终端中文乱码——解决

一、Ubuntu本机终端中文乱码可以使用zhcon解决本乱码问题,安装zhcon的命令如下: Sh代码  sudo apt-get install zhcon    生成中文环境(zh_CN.UTF-8): Sh代码  sudo locale-gen zh_CN.UTF-8  使用如下命令后,即可正常显示中文:Sh代码  

2014-03-14 16:34:15 1983

原创 宿主是win8虚拟机Virtualbox共享文件

一、为什么需要虚拟机与宿主机共享文件?在宿主机以及虚拟机中进行各种开发之后,不可能只是在自己的平台中就可以得到完美的测试!就比如说:我自己写的一个java桌面应用程序!我在虚拟机下编写的,虚拟机是没有windows界面的,用的是Server版本,现在执行该桌面程序,发现运行不了!另外,我在操作linux主机的时候经常的需要下载一些软件,我发现linux的网速很慢,在宿主机下完,再到linux下

2014-03-14 16:34:13 1652

原创 Java对象序列化学习心得------对象…

一、什么是 Java 对象序列化 ?首先 Java 对象序列化指的是 将堆上的已经存在的 Java对象实例保持成特定的数据格式,以便下次读取回来这些数据的时候,可以恢复此对象到保存前的状态。(类实例的持久化)二、Java 对象序列化需要做的事情有哪些?想想看, Java序列化的目的是将类实例持久化,那么怎么样才能保证类对象能够恢复成原来的样子呢?序列化程序会将对象版图上所有的东西存储起

2014-03-14 16:34:10 494

原创 java学习心得———泛型使用

一、数组使用泛型   数组使用泛型时候,类型检查是在运行的时候检查的例如:Animal[] animals = {new Dog[],new Cat[]}this.eat(animals);public void eat(Animal[] animals){animals[0] = newPig[]}使用泛型时候,如果在eat函数中传入Dog[] dogs = {newDog[]}

2014-03-14 16:34:08 688

原创 ubuntu&nbsp;在终端下面解决中文乱码

解决方法:一. Ubuntu默认的中文字符编码Ubuntu默认的中文字符编码为zh_CN.UTF-8,这个可以在/etc/environment中看到:sudo gedit /etc/environment可以看到如下内容:PATH="/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games"LA

2014-03-14 16:34:06 541

转载 完美的数据爬虫底层

不过有些时候,编码这个问题总是需要解决的   加油import java.io.*;import java.net.*;import java.nio.CharBuffer;import java.io.DataOutputStream;import java.io.File;import java.io.FileOutputStream;import java.io.FileRe

2014-03-14 16:34:03 672

原创 Java抓取网页乱码问题解决

一、乱码产生的原因:由于在网络上传输的数据是基于字节流,在 java中对应的就是byte。然而不同的编码对同样的字节会进行不同的组织,形成不同的形式展现在我们眼前。就比如:拿记事本记录“我爱你”这三个中文字符,在计算机中是不认识这种东西的,它只认识0和1,然而你用记事本编辑的时候,当你输入这三个字的时候,其实记事本已经按照默认的编码帮你转化成了0和1。当你写网页的时候,网页编辑器就会去读取

2014-03-14 16:34:01 4565 1

原创 基于GitStack搭建Git中心服务器

通过前一段时间对Git的学习,基本掌握了Git常用命令的使用方法,并进行了总结,有兴趣的可以看看Git常用命令的使用情景和Git学习笔记。在Git常用命令的使用情景中提到过多人协作的项目往往是需要一个中心服务器来同步多人之间的工作成果,另外,最终的工作成果通常也是中心服务器上的代码为准(为了项目管理的需要),因此,备份时往往需要对中心服务器上的仓库进行刻盘。中心服务器上创建的项目仓库一般为裸

2014-03-14 16:33:58 3854

原创 网络舆情监测系统学习笔记——GIT的…

Git是一个分布式的版本控制工具,本篇文章从介绍Git开始,重点在于介绍Git的基本命令和使用技巧,让你尝试使用Git的同时,体验到原来一个版本控制工具可以对开发产生如此之多的影响,文章分为两部分,第一部分介绍Git的一些常用命令,其中穿插介绍Git的基本概念和原理,第二篇重点介绍Git的使用技巧,最后会在Git Hub上创建一个开源项目开启你的Git实战之旅1、Git是什么     

2014-03-14 16:33:56 1278

原创 网络舆情监测系统学习笔记——GIT的…

Git是一个分布式的版本控制工具,本篇文章从介绍Git开始,重点在于介绍Git的基本命令和使用技巧,让你尝试使用Git的同时,体验到原来一个版本控制工具可以对开发产生如此之多的影响,文章分为两部分,第一部分介绍Git的一些常用命令,其中穿插介绍Git的基本概念和原理,第二篇重点介绍Git的使用技巧,最后会在Git Hub上创建一个开源项目开启你的Git实战之旅1、Git是什么     

2014-03-14 16:33:54 3129

转载 网络舆情监测系统学习笔记——Derby

Derby数据库是一个纯用Java实现的内存数据库,属于Apache的一个开源项目。由于是用Java实现的,所以可以在任何平台上运行;另外一个特点是体积小,免安装,只需要几个小jar包就可以运行了。Derby数据库有两种运行模式:1) 内嵌模式。Derby数据库与应用程序共享同一个JVM,通常由应用程序负责启动和停止,对除启动它的应用程序外的其它应用程序不可见,即其它应用程序不可访问它;

2014-03-14 16:33:51 2594

翻译 R语言学习笔记——读 bigmemory 文档

bigmemory: 管理大规模矩阵的共享内存以及映射文件1 描述bigmemory        bigmemory负责创建,存储,访问和操作大量的矩阵。矩阵,默认情况下会分配给共享内存并且可以使用内存映射文件。        biganalytics,  synchronicity,  bigalgebra, and bigtabulate 这些包提供先进的分析功能

2014-03-12 21:04:47 10559

原创 R 语言学习笔记 —— bigmomery使用

R语言处理 1G~10G 的数据可以选择使用 bigmemory,超过 10G 可以考虑 RHadoop1:安装bigmemory>install.packages('bigmemory')2:bigmemory的基本使用1)初始化一个big.matrix对象://nrow:行数    ncol:列数    type:数据类型(矩阵所有数据类型必须是一样的)    init

2014-03-12 19:11:12 9217 2

转载 R语言学习笔记——RMySQL基本操作

# 建表并插入数据> t_demo<-data.frame( a=seq(1:10), b=letters[1:10], c=rnorm(10))> dbWriteTable(conn, "t_demo", t_demo)# 获得整个表数据> dbReadTable(conn, "t_demo") a b c1 1 a 0.9886816

2014-03-12 17:06:41 3202

原创 R学习笔记——RMySQL使用

1、初次使用con <- dbConnect(MySQL(), user = 'root', password = '144230', dbname = 'test', host='localhost')错误于mysqlNewConnection(drv, ...) : RS-DBI driver: (Failed to connect to database: Error: Can't

2014-03-12 14:31:38 2743

原创 R 安装 RMySQL 记录

在安装 RMySQL 中遇到了许多问题,现在一一记下来,希望下次不要为了同样的问题烦恼环境介绍:[root@localhost download]# uname -aLinux localhost.localdomain 2.6.32-358.el6.i686 #1 SMP Thu Feb 21 21:50:49 UTC 2013 i686 i686 i386 GNU/Linux

2014-03-12 14:19:24 4174

原创 Centos 下彻底重装 Mysql

环境介绍:[root@localhost ~]# uname -aLinux localhost.localdomain 2.6.32-358.el6.i686 #1 SMP Thu Feb 21 21:50:49 UTC 2013 i686 i686 i386 GNU/Linux[root@localhost ~]# cat /etc/issueCentOS release 6

2014-03-10 16:49:18 2598

转载 ubuntu 下彻底卸载Mysql

删除mysql1 sudo apt-get autoremove --purge mysql-server-5.02 sudo apt-get remove mysql-server3 sudo apt-get autoremove mysql-server4 sudo apt-get remove mysql-common (非常重要)清除残留数据dpk

2014-03-10 14:45:28 702

转载 真正解决 “安装程序无法定位现有系统分区,也无法创建新的系统分区”的方法

真正解决 “安装程序无法定位现有系统分区,也无法创建新的系统分区”的方法 方法一:(从网上搜的,不可用)我在使用win pe模式安装win7 ( 32 位)的时候出现“安装程序无法定位现有系统分区,也无法创建新的系统分区”提示。解决步骤:第一步:把win7镜像发在你电脑的非系统盘的其他硬盘上。第二步:重启机器,通过U盘启动.进入win pe系统,关于这点我说一下,有些朋友也许不知道

2014-03-08 19:25:21 4383

R语言机器学习——第三章的垃圾邮件分类的数据

这是英文版:Machine Learning for Hackers 中文版:R语言机器学习 第三章垃圾邮件分类的数据资源!其中我的博客会持续跟进学习!

2014-11-11

xulrunner-10.0.4esr.en-US.win32.zip

windows 32 jdk xulrunner10 DJNativeSwing

2014-08-21

heritrix3种子载入方式

heritrix3 灵活载入种子的方式进行了详细的介绍,通过学习可以方便的想heritrix3 载入种子!

2014-08-13

heritrix3淘宝搜索食品店首页连接提取

本文通过一个淘宝信息提取的实例来说明怎么扩展heritrix3

2014-08-13

扩展Heritrix3指定内容提取.pdf

该文档详细介绍了如何利用heritrix3进行网页内容提取,其中内容提取模块可以自己修改,接口已经留好,具有很强的扩展性!

2014-08-13

扩展Heritrix3指定链接爬取

在网上找了许多关于Heritrix的资源,但是关于新版本heritrix3的资源很少,最近由于项目需要,认真读了heritrix的源码,扩展了Heritrix3指定链接提取,内容详细,可以在实际中使用。

2014-08-01

WEKA完整中文教程.rar

这是开源统计软件WEKA的中文文档,weka在国外已经成为很好的教程了

2014-07-23

基于 spring 架构用 Maven 构建的用户登录模块

本程序实现了 ”spring3 就是这么简单“ 一书中第一章的例子,但是不用连接数据库 可以直接用maven jetty:run 运行, 登录方式: url 127.0.0.1:8088/chapter1 用户名:admin 密码:123456

2014-04-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除