自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 资源 (1)
  • 收藏
  • 关注

原创 舆情相似度计算

舆情相似度计算舆情的属性有以下:domain 舆情发生领域regions 舆情地域(可将全国划分至5个区域,或十个以内)opinionType 舆情类型mediaType 发布言论中各媒体类别所占的比例mediaGrade 发布言论中各媒体类别所占的比例 需要将前三个属性转换成数值型以便计算,以domain为例: domain类型

2014-03-08 22:15:59 1690

原创 舆情发展曲线相关度

舆情发展曲线相关度以时间轴为x轴,增量数据为y轴做曲线。 计算两条曲线之间的欧氏距离,不考虑时间尺度和增量的平移和伸缩变换[c1,c2]为目标舆情的起始时间至当前时间段 选择与目标曲线最相似(距离最短)的舆情作为预测模板。          其他距离(较复杂)http://www.doc88.com/p-98141

2014-03-08 22:13:26 1385

原创 舆情功能点特性

言论主题自动聚类(系统利用数据挖掘引擎的智能,自动将事先还不知道的主题与言论进行聚类)网上信息的膨胀使得在网络上寻找需要的信息越发困难,如何对蕴含在海量信息中的有效信息进行有效的挖掘和利用是一个尚待解决的问题。对文本按照其主题进行聚类是解决这一问题的一项基础性工作,对于主题的自动发现机制、特征提取、主题检索及建模等具有重要意义,为本系统中主题(话题)的自动识别,网帖等的自动归类,主题的追踪和发

2014-03-08 22:05:00 1558

原创 jboss resteasy client ProxyFactory 自动化测试架构

jboss resteasy client ProxyFactory 自动化测试架构   【测试架构 -SVN】...1 【目标】...2 【工作机制】...21.    启动HSQLDB数据库。... 22.    启动Tomcat容器。... 23.    动态代理resteasy接口,封装HttpRequest-> Http

2014-03-08 21:57:06 1500

转载 Spring连接池配置详解

数据库连接池概述:  数据库连接是一种关键的有限的昂贵的资源,这一点在多用户的网页应用程序中体现得尤为突出。对数据库连接的管理能显著影响到整个应用程序的伸缩性和健壮性,影响到程序的性能指标。数据库连接池正是针对这个问题提出来的。  数据库连接池负责分配、管理和释放数据库连接,它允许应用程序重复使用一个现有的数据库连接,而再不是重新建立一个;释放空闲时间超过最大空闲时间的数据库连接来避免因为

2014-03-03 09:48:54 856

原创 Solr 安装脚本说明

Solr安装脚本使用说明如下。 1> 要求以root身份登录进行安装,否则不允许安装。 2> 把suntang-audit-solr-1.0.tar.gz 复制到要安装的机器(Linux服务器)上的任意目录下。 3> 进入suntang-audit-solr-1.0.tar.gz所在目录下,运行命令tar -zvxf suntang-audit-solr-1.0.tar.g

2014-03-03 09:42:00 813

原创 solr程序设计

solr程序实现说明总述:solr程序主要任务是从数据库中读取源数据,然后在solr中建立索引,供快速查询使用。 程序的实现原理图1) 建立索引过程思想:首先要理解数据库中的逻辑表和物理表之间的关系,以及数据库是如何分表,这些问题是数据库设计者实现的,可请教测试人员或老员工,在此省略。Solr程序为了记录建立索引的进程,需要建立一张SOLR_WORK_PROCESS表,用以记录有哪些物理表需要建立索引,以及每一张物理表建立索引的进度也就是偏移量。数据库中表 LOGICAL_TABLE_

2014-03-03 09:25:41 1069

原创 Nutch 2.0 集群配置

Nutch 2.0 集群配置【Build 】...3【Linux 配置Nutch+ Mysql 】...9【Linux 配置Nutch+ Hadoop集群 】...9【Linux 配置Nutch+ Hbase集群 】...10

2014-03-02 18:26:14 1310

原创 Nutch使用总结

Nutch使用总结Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch使用方法简介:http://blog.csdn.net/pengpengfly/archive/2008/09/29/2994664.aspxnutch1.2 eclipse tomcat6.0配置 :http://hi.b

2014-03-02 18:20:42 931

原创 NUTCH 1.4使用指南

NUTCH1.4使用指南从官网下载解压后,配置环境变量,在runtime/里有local和deploy两个目录,分别用于本地抓取和分布式抓取,用分布式抓取将利用hadoop作为文件系统,提高存取效率。先保证装了jdk1.6以上,在etc目录profile文件最后一行加上JAVA_HOME=/usr/local/(jdk文件夹名称)PATH=$JAVA_HOME/bin:$PATH

2014-03-02 18:16:57 840

原创 NUTCH 1.4+hadoop2.20.203.0使用指南

NUTCH 1.4+hadoop2.20.203.0使用指南Nutch有三种抓取模式,分别是单机,伪分布,分布式。单机所用文件系统为本机文件系统,伪分布用的是hadoop文件系统,分布式是在其它机器上配置相同的环境,用hadoop文件系统存抓取结果。配置的时候最好先用单机,再伪分布,再加入其它机器,进行分布式抓取,因为配置比较多,这样循序渐近可以减少错误。下面分别介绍:单机抓取:从官网

2014-03-02 18:15:55 985

原创 Java 多线程

1、进程与线程了解进程与线程一、进程    在多任务系统中,每个独立执行的程序称为进程。也就“正在进行的程序”。我们现在使用的操作系统一般是多任务的,即能够同时执行多个应用程序,实际情况是,操作系统负责对CPU等设备的资源进行分配和管理,虽然这些设备某一时刻只能做一件事,但以非常小的时间间隔交替执行多个程序,就可以给人以同时执行多个程序的感觉。二、一个进程中又可以包

2014-03-02 18:09:41 881

原创 在Linux下安装Nexus仓库管理器

在Linux下安装Nexus仓库管理器 系统环境: 全新安装的CentOS-5.5 32bit安装软件: Nexus (Maven 仓库管理器) 1. 获得root权限[ferrari@localhost ~]$ su - 2. 下载nexus集成版[root@localhost ~]# cd /usr/local[root@localhost local]

2014-03-02 18:01:47 885

转载 Maven之pom.xml详解

<project xmlns="http://maven.apache.org/POM/4.0.0 " xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance " xsi:schemaLocation="http://maven.apache.org/POM/4.0.0http://maven.apache.org/mave

2014-03-02 18:00:48 936

原创 Gora + MapReduce,大数据持久化,遍历

Gora + MapReduce,大数据持久化,遍历基于Gora中MapReduce进行扩展。 com.suntang.mapreduce.* --自定义MapReduce各类。 MyComparator.java --比较器,影响Reduce线程Key,Value。 MyGoraMapper.java --Map,数据分类 MyGoraReducer.java --Redu

2014-03-02 17:58:09 1389 1

原创 Lucene使用笔记

如何用java实现lucene1.前提  lucene有7个包需要导入:analysis,document,index,queryParser,search,store,util  2.建立索引  IndexWriter writer = new IndexWriter("E:/index", new StandardAnalyze(),true,MaxFieldLen

2014-03-02 17:54:01 691

原创 linux 硬链接 , 备注

echo "------ if firewall disable the port of mysql, then open it:"#service iptables restartiptables -D RH-Firewall-1-INPUT -j REJECT --reject-with icmp-host-prohibitediptables -D RH-Firewall-1

2014-03-02 17:52:20 690

转载 完美解读Linux文件系统的目录结构(附简明查阅手册)

一、前言    接触Linux也有一段时间了,不过这几天在编译开源程序时,才发现自己对linux文件系统的目录结构了解的不够透彻,很多重要目录都说不清楚是用来干嘛的,于是在网上百度了一下这方面的介绍,根据自己的使用习惯,整理出来一篇关于Linux文件系统的目录结构的文章,和大家一起分享。    文章对Linux下所有目录一一说明,对比较重要的目录加以重点解说,以帮助初学者熟练掌握Linux

2014-03-02 17:51:30 907

原创 linux 安装 mysql 备注

rpm -ivh libaio-0.3.105-2.i386.rpmrpm -ivh --force MySQL-server-5.5.21-1.linux2.6.i386.rpmrpm -ivh MySQL-client-5.5.21-1.linux2.6.i386.rpmrpm -ivh MySQL-shared-5.5.21-1.linux2.6.i386.rpmrpm -i

2014-03-02 17:49:42 620

原创 Jdom 解析 XML

package com.aptech.ServletMVCText.util;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import java.util.List;import org.jdom.D

2014-03-02 17:41:19 724

原创 struts2 + ireport

3:struts2与jfreeChart的整合package com.aptech.action;import java.util.*;import org.jfree.data.*;import org.jfree.data.category.DefaultCategoryDataset;import org.jfree.data.general.*;import

2014-03-02 17:38:12 786

原创 JPA & Hibernate 注解,详解

JPA & Hibernate注解1、@Entity(name="EntityName")必须,name为可选,对应数据库中一的个表2、@Table(name="",catalog="",schema="")可选,通常和@Entity配合使用,只能标注在实体的class定义处,表示实体对应的数据库表的信息name:可选,表示表的名称.默认地,表名和实体名称一致,

2014-03-02 17:36:07 835

原创 Nutch MapReduce 原理,源码,理解笔记

Nutch是最早用MapReduce的项目 (Hadoop其实原来是Nutch的一部分),Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表(Inject),生成抓取列表(Generate),抓取内容(Fetch), 分析处理内容(Parse),更新Crawl DB库(Update ),转化链

2014-03-02 17:34:08 1311

原创 nutch MapReduce 笔记

实现方式:Hadoop命令:    bin/hadoop jar nutch-2.0.job org.apache.nutch.crawl.Crawl 参数...Nutch分布式,org.apache.nutch.crawl.Crawl流程:1.利用hadoop这个脚本启动一个jvm进程;2.jvm进程去运行org.apache.hadoop.util.RunJar这个ja

2014-03-02 17:32:49 953

原创 nutch + hadoop + zookeeper + hbase, linux脚本

vi /etc/sysconfig/network-scripts/ifcfg-eth0 service network restartbin/hadoop-daemon.sh start datanodesudo ufw disablechmod 777 bin/*hadoop fs -put urls urlscd /home/nutch

2014-03-02 17:31:12 892 1

原创 Apache Gora 开源的ORM框架,客户端配置详解

Gora Java客户端配置说明。 【工程结构】  /conf/       --gora-hbase-mapping.xml  实体与Hbase数据库映射配置文件。       --gora-sql-mapping.xml    实体与关系型 数据库映射配置文件。       --gora.properties         Gora配置文件,主要配置数据源

2014-03-02 17:24:35 1217

转载 30个Oracle语句优化规则详解

1.选用适合的Oracle优化器 Oracle的优化器共有3种: a.RULE(基于规则) b.COST(基于成本) c.CHOOSE(选择性) 设置缺省的优化器,可以通过对init.ora文件中OPTIMIZER_MODE参数的各种声明,如RULE、COST、CHOOSE、ALL_ROWS、FIRST_ROWS。你当然也在SQL句级或是会话(session

2014-03-02 17:17:08 1015

javamail-api

javamail api javamail api javamail api javamail api

2011-07-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除