标记数据分析

原创 2007年10月10日 22:39:00
最近由于工作上的需要,我要分析网页中的html标记元素,对其中的文本进行操作。虽然有这样的组件,但是我还是选择了自己写代码,来尝试一下。最开始还好,后面发现这条路越走越难。

第一个问题是我该如何分析出一个元素的开始。例如<font  size="4"  >;开始我想用正则表达式,后来发现这个表达式并不简单。这样的表达式如:<font.*>;这是一个失败的表达式,它会匹配出<font开始,直到最后一个>之间的所有数据。当我走到这里时,我发现一切都没有我们所想象的那么简单。

----------------------------------------------------------10.11
今天在路上突然想到一个解决方法:逐个地读取字符,然后用一个变量讲读到的字符收集起来,再用正则表达式来分析,直到分析到有效的标记元素为止。
代码为:
string ParseString = "....<font size="4">...";

private void ParseFlag(string ParseString)
{
string cache;

StringReader sr = new StringReader(ParseString);
int code = sr.Read();
int index= 0;
while(code >=0)
{
    cache += Convert.ToChar(code);
    Match matchObj = RegEx.Match(cache, "<font.*>");//用正则表达式<font.*>来匹配查找
    if(!string.IsNullOrEmpty(matchObj.Value))
    {
       ParseFlag(ParseString.SubString(index);//递归调用
       break;
    }
    index ++;
}
}
以上的代码不完整,至少我现在觉得它的执行效率很低,但是我又不知道其它的那些工具是怎么分析类似于xml数据的。还需要继续思考呀。不知道是否还有人象我一样,对分析数据感兴趣呀。

标注与注记的区别和联系

标注和注记都是地图上的文本信息,属于描述性文本,用于解释地图,但标注与注记之前有有所不同。        标注的文本和位置是由一系列定位规则自动确定的,其文本字符串基于要素属性,具有快速简单的特性。...
  • qq_18461229
  • qq_18461229
  • 2017-06-14 21:48:20
  • 1362

Excel中对比两列数据的不同并做特殊标记

最近在处理一批自然保护区的数据,数据的来源不同,要对比两种数据的区别,当然要用Excel进行处理了。如下图: 有A和C两列数据,A列数据是中国林业科学院的网站上爬取到的;C列数据是国家环保部...
  • SuperGiser_Lee
  • SuperGiser_Lee
  • 2017-04-10 18:27:35
  • 5707

jpg文件数据字段解析

JPG文件是以标记来分段管理的,这些标记形式都是0xFFxx 一些常用标记 SOI 0xD8 图像开始 APP0 0xE0 JFIF应用数据块 APPn 0xE1 - 0xEF 其...
  • danteLiujie
  • danteLiujie
  • 2016-06-13 17:29:29
  • 576

利用python进行数据分析-数据聚合与分组运算2

1.分组级运算和转换 聚合只不过是分组运算的其中一种而已。介绍transform和apply方法,它们能够执行更多其他的分组运算 假设我们想要为一个DataFrame添加一个用于存放各索引分组平均值的...
  • zhuhengv
  • zhuhengv
  • 2016-07-14 21:51:49
  • 2453

知识点:几个标签的区别

title与h1 title元素表示页面标题,显示在浏览器的标题栏或标签页上。 h1则是文档内容中的一级标题,对页面信息的抓取也有很大的影响; b、strong strong表示文本十分重要,一般用粗...
  • crystal6918
  • crystal6918
  • 2016-12-20 22:26:47
  • 289

对比两张图片不同之处并进行<em>标记</em>

和两张图片的不同之处生成新图片,在网络传输中可以使用差异化<em>数据</em>传出,保证流...对比两张图片不同之处并进行<em>标记</em> 5积分 立即下载 ...
  • 2018年03月19日 00:00

Python__数据分析--与__挖掘实战D.pdf

  • 2018年01月17日 19:59
  • 47.17MB
  • 下载

python数据分析及其学习

  • 2017年09月16日 10:53
  • 100KB
  • 下载

arcgis中的标注和注记

一直都分不清楚标注和注记的区别。这不,发布服务遇到了高级别的警告,说“00017: 数据框中至少有一个包含图形的已启用注记组文档中的数据框包含地图图形”,一头雾水,找不到哪有什么地图图形。先mark一...
  • sophiasy
  • sophiasy
  • 2016-09-07 09:26:30
  • 3653

标签、元素、属性、样式的关系与区别

虽然已经开始进入JS的学习,可是回头突然想到html-css里原来一度迷惑我的标签、元素、属性和样式,觉得也是时候总结一下它们的概念和关系了。 1.标签和元素: 比如,这就是一个标签; 这里是内容...
  • pleasecallme_522
  • pleasecallme_522
  • 2016-08-01 18:50:15
  • 3942
收藏助手
不良信息举报
您举报文章:标记数据分析
举报原因:
原因补充:

(最多只允许输入30个字)