【问题描述】
近日需要做一些数据仓库的内容,发现数据库搭好了以后,所有的数据文件都是Excel存储的。然而数据又是及其繁杂,所以在创建好了事实表和维度表以后,准备自己写一个代码将Excel中多维的数据导入到数据库中。Excel表的部分数据如下图所示
所以需要对数据进行处理,处理之后添加到数据库中。
【准备工作】
首先需要找到从Excel读取数据的代码。参考网址:http://www.jb51.net/article/34096.htm。代码如下:
(1)页面上的代码
<div> <%-- 文件上传控件 用于将要读取的文件上传 并通过此控件获取文件的信息--%>
<asp:FileUpload ID="fileSelect" runat="server" />
<%-- 点击此按钮执行读取方法--%>
<asp:Button ID="btnRead" runat="server" Text="ReadStart" />
</div>
(2)后台处理代码
//声明变量(属性)
string currFilePath = string.Empty; //待读取文件的全路径
string currFileExtension = string.Empty; //文件的扩展名
//Page_Load事件 注册按钮单击事件
protected void Page_Load(object sender,EventArgs e)
{
}
//按钮单击事件 //里面的3个方法将在下面给出
protected void btnRead_Click(object sender,EventArgs e)
{
Upload(); //上传文件方法
if(this.currFileExtension ==".xlsx" || this.currFileExtension ==".xls")
{
DataTable dt = ReadExcelToTable(currFilePath); //读取Excel文件(.xls和.xlsx格式)
}
else if(this.currFileExtension == ".csv")
{
DataTable dt = ReadExcelWidthStream(currFilePath); //读取.csv格式文件
}
}
///<summary>
///上传文件到临时目录中
///</ummary>
private void Upload()
{
HttpPostedFile file = this.fileSelect.PostedFile;
string fileName = file.FileName;
string tempPath = System.IO.Path.GetTempPath(); //获取系统临时文件路径
fileName = System.IO.Path.GetFileName(fileName); //获取文件名(不带路径)
this.currFileExtension = System.IO.Path.GetExtension(fileName); //获取文件的扩展名
this.currFilePath = tempPath + fileName; //获取上传后的文件路径 记录到前面声明的全局变量
file.SaveAs(this.currFilePath); //上传
}
///<summary>
///读取xls\xlsx格式的Excel文件的方法
///</ummary>
///<param name="path">待读取Excel的全路径</param>
///<returns></returns>
private DataTable ReadExcelToTable(string path)
{
//连接字符串
string connstring = "Provider=Microsoft.ACE.OLEDB.12.0;Data Source=" + path + ";Extended Properties='Excel 8.0;HDR=NO;IMEX=1';"; // Office 07及以上版本 不能出现多余的空格 而且分号注意
//string connstring = Provider=Microsoft.JET.OLEDB.4.0;Data Source=" + path + ";Extended Properties='Excel 8.0;HDR=NO;IMEX=1';"; //Office 07以下版本 因为本人用Office2010 所以没有用到这个连接字符串 可根据自己的情况选择 或者程序判断要用哪一个连接字符串
using(OleDbConnection conn = new OleDbConnection(connstring))
{
conn.Open();
DataTable sheetsName = conn.GetOleDbSchemaTable(OleDbSchemaGuid.Tables,new object[]{null,null,null,"Table"}); //得到所有sheet的名字
string firstSheetName = sheetsName.Rows[0][2].ToString(); //得到第一个sheet的名字
string sql = string.Format("SELECT * FROM [{0}],firstSheetName); //查询字符串
OleDbDataAdapter ada =new OleDbDataAdapter(sql,connstring);
DataSet set = new DataSet();
ada.Fill(set);
return set.Tables[0];
}
}
///<summary>
///读取csv格式的Excel文件的方法
///</ummary>
///<param name="path">待读取Excel的全路径</param>
///<returns></returns>
private DataTable ReadExcelWithStream(string path)
{
DataTable dt = new DataTable();
bool isDtHasColumn = false; //标记DataTable 是否已经生成了列
StreamReader reader = new StreamReader(path,System.Text.Encoding.Default); //数据流
while(!reader.EndOfStream)
{
string meaage = reader.ReadLine();
string[] splitResult = message.Split(new char[]{','},StringSplitOption.None); //读取一行 以逗号分隔 存入数组
DataRow row = dt.NewRow();
for(int i = 0;i<splitResult.Length;i++)
{
if(!isDtHasColumn) //如果还没有生成列
{
dt.Columns.Add("column" + i,typeof(string));
}
row[i] = splitResult[i];
}
dt.Rows.Add(row); //添加行
isDtHasColumn = true; //读取第一行后 就标记已经存在列 再读取以后的行时,就不再生成列
}
return dt;
}
【后续工作】
将Excel表存入到DataTable对象中,可以将读取到的表格数据转存到数据库的事实表中。将所需要的时间、地域以及品种的ID值读取以后,开始与Excel表中的数据一起存放到数据库中。部分代码如下所示
int i, j;
int region = 0;
//获取作物ID值
cropnumber = int.Parse(CropID.Text.ToString());
//获得更新数据库类型
if (mianji.Checked == true) //遇到播种面积时新增数据库条目
{
for(i=2;i<40;i++) //省份
{
if (i == 3 || i == 9 || i == 13 || i == 21 || i == 28 || i == 34) //跳过空白区域
continue;
//读取地域ID值
string proname = exceldt.Rows[i][0].ToString().Replace(" ", "");
string sqlstr = "select Region_ID from [DimRegion] where Province_Name='" + proname + "'";
DataTable dt = new DataTable();
dt = BaseClass1.ReadTable(sqlstr);
region = int.Parse(dt.Rows[0][0].ToString());
for(j=1;j<60;j++) //时间
{
float area = float.Parse(exceldt.Rows[i][j].ToString());
string str = "insert into[FactCropProducts](Time_ID,Region_ID,Croptype_ID,Area) values(" + j + "," + region + "," + cropnumber + "," + area + ")";
BaseClass1.execsql(str);
}
}
}
【后记】
这样写一个程序读取Excel中的数据,大大节省了时间。但是还有几个未解决的问题:
(1)如果Excel表第一个sheet的名字为中文名,第二个sheet为Sheet1。则使用上面的代码虽然是读取第一个sheet的名称,但是实际却读到的是Sheet1的内容。
(2)如果数据量巨大,需要的品种又多,这个代码就会有很大缺陷。就要一个一个输入品种ID,然后一个一个Excel表进行导入。浪费了人力也浪费了时间,所以这个代码的改进点还是不少的。