一个简陋的中文自动分词程序

该程序基于最大匹配法进行中文分词,利用詹卫东提供的语料库,并在数据库中存储词典信息。操作流程包括打开数据库,加载词典到DataSet,然后处理待分词文件,分别处理非中文字符、标点符号和纯中文字符串。
摘要由CSDN通过智能技术生成

 

程序采用最大匹配法完成。

其中采用的语料库来自于詹卫东:

http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/2002_2003_1.htm

程序也参考了他的。

其中的表words结构是:wid (int), word(文本), wfreq(int)

而涉及的另外一个自定义的结构:

 

public   struct  wordsStr 
{
    
public int wid;//表示ID
    public string wordPrase;
    
public int wFreq;//词出现的次数
    public PartofWord eNumPoW;//词性

}
;

整体程序如下:

操作流程为:打开数据库,将数据库中文件读入到DataSet中。并形成一个ArrayList的字典结构。

打开要分词的文件--->分词(A:处理非中文字符 B:处理标点符号 C处理纯中文字符串)

using  System;
using  System.Drawing;
using  System.Collections;
using  System.ComponentModel;
using  System.Windows.Forms;
using  System.Data;
using  System.Data.OleDb;
using  System.IO;
using  System.Collections.Specialized;
using  System.Text;
using  wordLibrary_keqian070507;

namespace  NLP_WordSeg
{
    
    
/// <summary>
    
/// Form1 的摘要说明。
    
/// </summary>

    public class Form1 : System.Windows.Forms.Form
    
{
        
private System.Windows.Forms.Button button1;

        
///<summary>
        
///变量,用来链接数据库使用,DataConnect,and so on
        
///<summary>

        private System.Data.OleDb.OleDbConnection _connOle;
        
private System.Data.DataSet _dataSet;
        
private string _fileNameStr;
        
private bool _openDBb;
        
private char[] _separatorsC = { '','',''};
        
private const string _strExt = "_seg";
        
private const string _Separator = @"";
        
private const int _iNumberMax = 4;

        
private  ArrayList[] LibArray = new ArrayList[0x9FA5-0x4E00+1];//用来记录数据


        
private System.Windows.Forms.Button btOpenFile;
        
private System.Windows.Forms.GroupBox groupBox1;
        
private System.Windows.Forms.GroupBox groupBox2;
        
private System.Windows.Forms.Button btMMMethod;
        
private System.Windows.Forms.TextBox textBox1;
        
private System.Windows.Forms.Label label1;

        
/// <summary>
        
/// 必需的设计器变量。
        
/// </summary>

        private System.ComponentModel.Container components = null;

        
public Form1()
        
{
            
//
            
// Windows 窗体设计器支持所必需的
            
//
            InitializeComponent();

            
//
            
// TODO: 在 InitializeComponent 调用后添加任何构造函数代码
            
//

            _connOle 
= null;
            _dataSet 
= new DataSet();
            _fileNameStr 
= "";
            _openDBb 
= false;

            
for (int i = 0; i< 0x9FA5-0x4E00+1; i++)
            
{
                LibArray[i] 
= new ArrayList();
            }

        }


        
/// <summary>
        
/// 清理所有正在使用的资源。
        
/// </summary>

        protected override void Dispose( bool disposing )
        
{
            
if( disposing )
            
{
                
if (components != null
                
{
                    components.Dispose();
                }

            }

            
base.Dispose( disposing );
        }



        
Windows 窗体设计器生成的代码
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值