利用python对HTML进行解析是比较方便的。我是利用的BeautifulSoup+正则表达式,正则表达式在处理字符串的时候非常强大,但是逻辑比较难。
<link href="/css/newcss/project.css" rel="stylesheet" type="text/css">
<body leftmargin="0" topmargin="0" marginwidth="0" marginheight="0" style="overflow:auto;">
<a name="2013-2014学年秋(两学期)" /></a>
<table width="100%" border="0" align="center" cellpadding="0" cellspacing="0">
<tr><td class="Linetop"></td>
</tr>
</table>
<table width="100%" border="0" cellpadding="0" cellspacing="0" class="title" id="tblHead">
<tr>
<td width="80%" >
<table border="0" align="left" cellpadding="0" cellspacing="0" >
<tr>
<td> </td>
<td valign="middle"> <b>2013-2014学年秋(两学期)</b>
</td>
</tr>
</table>
</td>
<td width="20%" >
<table border="0" align="left" cellpadding="0" cellspacing="0" width="100%" >
<tr>
<td> </td>
<td width="5"></td