标记数据分析

原创 2007年10月10日 22:39:00
最近由于工作上的需要,我要分析网页中的html标记元素,对其中的文本进行操作。虽然有这样的组件,但是我还是选择了自己写代码,来尝试一下。最开始还好,后面发现这条路越走越难。

第一个问题是我该如何分析出一个元素的开始。例如<font  size="4"  >;开始我想用正则表达式,后来发现这个表达式并不简单。这样的表达式如:<font.*>;这是一个失败的表达式,它会匹配出<font开始,直到最后一个>之间的所有数据。当我走到这里时,我发现一切都没有我们所想象的那么简单。

----------------------------------------------------------10.11
今天在路上突然想到一个解决方法:逐个地读取字符,然后用一个变量讲读到的字符收集起来,再用正则表达式来分析,直到分析到有效的标记元素为止。
代码为:
string ParseString = "....<font size="4">...";

private void ParseFlag(string ParseString)
{
string cache;

StringReader sr = new StringReader(ParseString);
int code = sr.Read();
int index= 0;
while(code >=0)
{
    cache += Convert.ToChar(code);
    Match matchObj = RegEx.Match(cache, "<font.*>");//用正则表达式<font.*>来匹配查找
    if(!string.IsNullOrEmpty(matchObj.Value))
    {
       ParseFlag(ParseString.SubString(index);//递归调用
       break;
    }
    index ++;
}
}
以上的代码不完整,至少我现在觉得它的执行效率很低,但是我又不知道其它的那些工具是怎么分析类似于xml数据的。还需要继续思考呀。不知道是否还有人象我一样,对分析数据感兴趣呀。

requirejs源码学习笔记(二)

昨天大概了解了以下requirejs的主要入口req方法和上下文newContext方法,说实话到目前为止这些方法是做什么的,有什么用我们还是一无所知,接下来先看些esay一点的代码在执行了一次空参数...
  • xmloveth
  • xmloveth
  • 2017年02月15日 22:51
  • 360

从数据采集与标记行业看数据与深度学习之关系

1.数据规模 先看数据规模,数据规模与算法模型的容量其实是比较相关的。算法模型的容量越大,就意味着算法能表示相对来说更复杂的关系。当数据规模相对过大时,在训练过程中容易产生欠学习(underfitt...
  • hebeibaishuang11
  • hebeibaishuang11
  • 2017年11月12日 21:15
  • 152

【XML定义】(2)XML标记语法、文档的语法和数据结构

XML标记语法 : (1)标记的命名规则 作为标记名字的字符串必须满足以下要求: ①名称的开头必须是字母或“_”; ②标记名称中不能有空格...
  • qq_35415600
  • qq_35415600
  • 2017年05月17日 00:56
  • 395

Seaborn-03-数据分布图

基本#-*- coding:utf-8 -*- from __future__ import division import numpy as np import pandas as pd impor...
  • longgb123
  • longgb123
  • 2016年11月18日 18:29
  • 458

关于html中表单<form>标记的介绍

表单在Web网页中用以让访问者输入数据,当提交表单时,表单中输入的数据被打包传递给Web服务器端的程序以处理,从而使得Web服务器与用户之间具有交互功能。 首先我们来说说关于表单的工作机制,浏览...
  • Candyys
  • Candyys
  • 2017年03月09日 23:42
  • 523

南京大学提出SSWL模型:从半监督弱标注数据中学习多标签学习问题

在多标签学习中,通常我们会假设一个实例的所有标签都已知,但现实情况并不如此。在 AAAI 2018 所接收的论文中,南京大学周志华组提出了从半监督弱标注数据中学习并处理多标签学习问题。该方法假设实例和...
  • Uwr44UOuQcNsUQb60zk2
  • Uwr44UOuQcNsUQb60zk2
  • 2018年01月08日 06:55
  • 35

JavaScript标记收集数据

JavaScript标记收集数据 JavaScript标记是成为喜爱在供应商和网络分析。大多数商贩和网络分析解决方案是依靠JavaScript标记收集数据。 JavaScript的标记,信标赛季结束后...
  • gondel0
  • gondel0
  • 2014年08月11日 11:24
  • 332

读取坐标数据并标记

从txt文本读取坐标并在一张图上标记,文本如下格式: 第一个是横坐标X第二个是Y。总共168对数据坐标 #include #include "opencv2/opencv.hpp" #in...
  • yang332233
  • yang332233
  • 2016年11月08日 22:01
  • 186

iptables数据包、连接标记模块MARK/CONNMARK使用

iptables数据包、连接标记模块MARK/CONNMARK使用
  • ztguang
  • ztguang
  • 2017年03月31日 17:13
  • 893

图像分析:二值图像连通域标记-基于行程的标记方法

一、前言 二值图像,顾名思义就是图像的亮度值只有两个状态:黑(0)和白(255)。二值图像在图像分析与识别中有着举足轻重的地位,因为其模式简单,对像素在空间上的关系有着极强的表现力。在实际应用中,很...
  • beechina
  • beechina
  • 2016年04月05日 20:31
  • 2325
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:标记数据分析
举报原因:
原因补充:

(最多只允许输入30个字)