毕业设计数据查找优化代码之一

原创 2007年10月02日 22:38:00
/*
 * DivWords.java
 *
 * 创建于 2007年10月2日, 下午9:16
 *
 * @author 马如林
 *
 */

package com.mrl;

import java.io.*;
import java.util.*;

import com.xjt.nlp.word.ICTCLAS;
import com.mrl.FileProcess;

/**
 *
 * @author rulinma
 */
public class DivWords
{
    /** 测试分类文件夹 */
    private static String FILE_DIR ="D:/blogTestSet";
   
    /** 分词存放文本    */
    private static String DIV_WORDS ="D:/divWords";
   
    /** 主程序入口 */
    public static void main(String[] args)
    {  
        FileProcess fileProcess = new FileProcess();

        /** 获取所在文件夹*/
        getFile(FILE_DIR);
    }
   
    /*
     * 根据文件目录读取整个文件夹文件,同时currId表示数据库当前有的文章数
     */
    private static void getFile(String dirPath)
    {
        /** 建立当前目录中文件的File对象 */
        File filesDir = new File(dirPath);

        /** 取得代表目录中所有文件的File对象数组 */
        File list[] = filesDir.listFiles();

        for(int i=0; i<list.length; i++)
        {
            if(list[i].isFile())
            {
                readContent(list[i].getPath ());              
           }
        }
    }
   
    /*
     * 根据文件路径读取文章内容
     */
    private static void readContent(String filePath)
    {
        int i = 0;
        String strContent = null;
        try
        {
            BufferedReader in = new BufferedReader(new FileReader(filePath));      
            String strTemp = null;
            while ((strTemp = in.readLine()) != null)
            {
                strContent = strContent + strTemp;
                i++;
             }
            in.close();
        }
        catch (IOException e)
        {
            e.getStackTrace();
        }       
        // 调用分词处理
        divLexical(strContent);
     }
   
    /*
     * 内容分词处理
     */
    private static void divLexical(String strContent)
    {
        /** 调用ICTCLAS进行分词 */
        ICTCLAS ictclas = new ICTCLAS();
        if(!ictclas.init (0,2))
        {
            ictclas.init (0,2);
        }
        String strTrans=ictclas.paragraphProcess(strContent);
       
        filterString(strTrans);
    }
   
    /*
     * 过滤字符串 比如中国/北京 天安门/。,过滤为 中国/北京 天安门/。两个串
     */
    private static void filterString(String srcStr)
    {
        /** 使用trim去掉前后多余空格防止发生意外 */
        String strTemp = srcStr.trim();
        String tempText = "";
      
        StringTokenizer st = new StringTokenizer(strTemp," ");
        int len = st.countTokens();
        for(int i=0; i<len; i++)
        {
            tempText = st.nextToken();
            divStr(tempText);   
        }
    }
   
    /*
     * 对连续的字符串过滤,比如中国/北京,过滤为 中国 北京 两个词
     */
    private static void divStr(String srcStr)
    {
        StringTokenizer st = new StringTokenizer(srcStr,"/");
       
        int len = st.countTokens();

        if(len == 2)
        {
            /** 前一个词 */
            String strPre = st.nextToken ();
            System.out.println(strPre);
           
            try
            {
                /** 在文件中添加词 */
                BufferedWriter out = new BufferedWriter(new FileWriter(DIV_WORDS,true));
                out.write(strPre);
                out.newLine();
                out.close();
            }
            catch (IOException e)
            {
            }
        }
    }
}
 

毕业论文知网查重心得体会——吐血奉献

摘要:一年一度的毕业季,在许多师兄师姐结婚发喜糖、秀恩爱的时候,在各种无节操、无下限的毕业照满天飞的时候,部分学子却深陷苦海、不得不面对毕业论文查重这个拦路虎!部分学校对毕业论文的查重,规定的重复率比...
  • kobesdu
  • kobesdu
  • 2015年03月22日 16:39
  • 17043

【毕业设计】基于Android的家校互动平台开发(内含完整代码和所有文档)——爱吖校推(你关注的,我们才推)

目录 1 概述 1.1 研究背景和意义1.2 国内现状1.3 论文的思路和结构 2 研究方案和架构概述 2.1 预计花费时间设计方案2.2 软件开发设计方案2.3 本课题的设计目标...
  • binyao02123202
  • binyao02123202
  • 2017年06月13日 00:08
  • 1680

一位计算机专业硕士毕业生的求职经历和感想

我的周围充斥着计算机专业‘工作经验比学历要重要’的观点,我从来都不否认,但是考研不仅仅是为了一纸文凭而已,考研是努力博取继续进修的机会,在学习更丰富更高层次的理论知识的同时,还争取时间付诸实践,锻炼专...
  • dodohui
  • dodohui
  • 2014年01月03日 09:56
  • 2336

毕业设计——人脸检测——003 学习别人代码

代码学习 今天学习http://blog.csdn.net/lyqmath/article/details/6139043 lyqmath的代码 我将其代码复制到一个txt文档,然后署名‘...
  • hughdove
  • hughdove
  • 2011年11月29日 22:10
  • 3974

【毕业设计day05】精析代码

翻译_ 1. 词典信息加载 : docPairOfCorpus.fullcorpus.dic加载对象文件 2. 从提取出的词典进行翻译:   tranWord  rank  similarity 词典...
  • Shinetien21
  • Shinetien21
  • 2015年03月07日 13:20
  • 342

毕业设计day01--代码学习篇

JF(button_5)  -->  ExtractLexiconAndTra(buildDic) --> CmdMain(cmdMain)-->  1~8 JF(button_1)  -->  E...
  • Shinetien21
  • Shinetien21
  • 2015年02月18日 11:23
  • 481

【毕业设计day01】代码浅析

day01: JF(button_5)  -->  ExtractLexiconAndTra(buildDic) --> CmdMain(cmdMain)-->  1~8 JF(button_1)...
  • Shinetien21
  • Shinetien21
  • 2015年02月27日 16:27
  • 404

毕业设计——人脸检测——004 学习别人代码——《matlab读取一个目录下的所有图片》

学习warmyellow的代码——《matlab读取一个目录下的所有图片》  http://blog.csdn.net/warmyellow/article/details/6288670  ...
  • hughdove
  • hughdove
  • 2011年12月08日 05:17
  • 2680

数据处理的毕业设计 关于matlab gui操作

机械系小白 大四保研,之后的硕士方向是机械故障诊断,马上开始做毕设,在本校找了一个方向较近的老师,做岸桥应力数据分析 写写博客也是算一个笔记,毕竟怕自己之后忘记 老师先甩给我了一个txt文件 我目前先...
  • xiaoshan0609
  • xiaoshan0609
  • 2017年12月26日 15:20
  • 27

毕业设计开题报告----空间数据共享

毕业设计开题报告           题 目 名 称         空间数据共享研究       院   (系)          计算机科学学院       专 业 班 级   ...
  • guoyilongedu
  • guoyilongedu
  • 2012年02月18日 21:32
  • 2261
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:毕业设计数据查找优化代码之一
举报原因:
原因补充:

(最多只允许输入30个字)