tingya的专栏

扯淡与编程比翼双飞, 吹牛与泡妞不分上下

用户操作
[即时聊天] [发私信] [加为好友]
张中庆ID:tingya
217379次访问,排名316好友5人,关注者10
tingya的文章
原创 82 篇
翻译 1 篇
转载 18 篇
评论 390 篇
张中庆的公告
最近评论
eee:我看的APR是最新的apr-1.3.3,我觉得您的表述有问题
allocator_alloc:
allocator->current_free_index += node->index;
if (allocator->current_free_index > allocator->ma……
xiawz:index_intialized是一个32位的无符号整数,共对应了32 Í 8个bit,系统中用256位中的第n位来记录当前分配空间的第n个元素是否已经被初始化,如果初始化,该位为1,否则0。因此我们可以看到表格中的元素最多也只能为256个。
好像不对吧。。
eksong:您好,最近做web信息抽取方面的研究,能发一份代码给我吗?email:eksong@live.cn
3x
eksong:图片看不到
可以发我一份吗
3x
eksong@live.cn
xiawz:哪位牛人 有文章里的图 能发给小弟一份吗,不胜感激,邮箱是:xiawenzhen@126.com
文章分类
收藏
    相册
    庐山三日游
    收藏blog
    aimingoo的专栏
    pandaxcl的专栏
    卢亮的搜索引擎研究
    我的淘宝店铺[护肤品零售]
    水木尤寒的lucene相关的博客
    温辉敏的blog
    盛普的blog
    高性能网络服务器开发
    我的好友
    Ruby_cn的Blog
    张辉的blog
    强哥的Blog(RSS)
    我要去桂林---田春峰的网志
    蒋畔的blog
    存档
    软件项目交易
    订阅我的博客
    XML聚合  FeedSky
    订阅到鲜果
    订阅到Google
    订阅到抓虾
    订阅到BlogLines
    订阅到Yahoo
    订阅到GouGou
    订阅到飞鸽
    订阅到Rojo
    订阅到newsgator
    订阅到netvibes

    原创 基于视觉的Web页面分页算法VIPS的实现源代码下载收藏

    新一篇: 明天去成都参加EMC的面试! | 旧一篇: 常用手持设备的use-agent头信息

    本来由于尚未优化好,暂时不提供下载的,但是由于众多的user迫切希望获取,因此只能将这个
    不成熟的版本提供出来!希望大家帮忙改进!
    另外,该源代码实现并未严格遵循VIPS算法,它与VIPS算法存在的差异包括:
    1、 DOM结点提取算法没有采用微软的算法
    2、没有采用VIPS算法中的DoC概念
    3、采用的合并算法与VIPS算法不相同
    4、分割条的检测算法与VIPS算法相同
    具体的VIPS算法的修改我们在整理后会发上来!

    源代码下载地址:
    http://www.kaixin001.com/file/file.php?verify=360531_1008_360531_1219286380_f0dc32b790e9d1602ec827df9231a346&fileid=195737&uid=360531

    编译源代码必须具有.Net 2.0 Framework。最好使用Visual Studio 2005编译!!

    注:1、如果你下载了本源代码,请在该文章后面进行回复,留在你的网络ID即可。
            2、对本源代码的任何修改意见可以通过两种途径发给我,或者直接在文章末尾回复,或者
                 发送到我的信箱 flydish1234 # sina.com.cn , #换成@
     

    发表于 @ 2006年04月28日 10:09:00|评论(loading...)|收藏

    新一篇: 明天去成都参加EMC的面试! | 旧一篇: 常用手持设备的use-agent头信息

    评论

    #GUEST 发表于2006-05-02 02:46:00  IP: 58.20.53.*
    Thanks.
    #air677 发表于2006-05-02 00:51:00  IP: 218.88.131.*
    #P 发表于2006-05-02 09:14:00  IP: 58.49.225.*
    3q
    #lne818 发表于2006-05-02 10:25:00  IP: 61.138.129.*
    下来看看
    #不错看看 发表于2006-05-02 10:33:00  IP: 221.203.8.*
    不错看看不错看看不错看看不错看看
    #happydivid 发表于2006-05-02 14:56:00  IP: 218.83.213.*
    thanks
    #imbiss 发表于2006-05-02 18:59:00  IP: 129.13.72.*
    downloading.....
    #qqboy 发表于2006-05-02 13:31:00  IP: 219.144.102.*
    谢谢
    #shengzi101 发表于2006-05-02 14:15:00  IP: 58.244.48.*
    tanks
    #hongkong 发表于2006-05-03 11:56:00  IP: 221.232.170.*
    我实现了一下,只能对本机上的页面进行分块,对动态页面似乎不行啊,我导入新浪的主页进行分页,会出现报错信息,WHY?
    #tingya 发表于2006-05-03 15:07:00  IP: 202.117.15.*
    你先看一下憋得网站的页面!由于一些潜在的问题还没有解决,所有,有些页面可能无法分业,不过大部分都是可以用的.你用www.vcer.net看看
    #rubeljl 发表于2006-05-04 02:24:00  IP: 218.249.187.*
    8错,谢谢。
    #hongkong 发表于2006-05-04 11:44:00  IP: 221.232.168.*
    哦,是这样啊,我再好好看看,因为我是边看程序边学习,所以肯定会有很多问题不懂,请多多指教,THANKS!
    #hongkong 发表于2006-05-04 10:36:00  IP: 221.232.168.*
    我的C#不是很好,所以如果说错了大家可不要见笑,tingya,你的主程序是MAINFORM吧,而SPLITTER。cs这个程序是实现分隔条检测的吧,那么为什么在主程序中没有调用SPLITTER的语句呢?
    #tingya 发表于2006-05-04 10:51:00  IP: 219.245.182.*
    Splitter用于封装所有根分隔条有关的操作,不过主成促并不直接调用分隔条,而是由VisionBlock类进行调用,该类是分割后的语义块类,
    #Coco 发表于2006-05-04 10:58:00  IP: 222.244.15.*
    thanks
    #tingya 发表于2006-05-04 17:29:00  IP: 219.245.182.*
    Blog的文章中有VIPS与搜索引擎的结合,你自己找找!!
    #hongkong 发表于2006-05-06 21:24:00  IP: 58.48.168.*
    tingya,请教一下你的算法中定义的这样几个接口是什么意思?IHTMLElement、
    IHTMLDocument、
    IHTMLDocument2、
    IHTMLDOMNode、
    IHTMLDOMChildrenCollection!
    #tingya 发表于2006-05-07 18:05:00  IP: 202.117.15.*
    IHTMLDocument等接口是IE浏览器提供的操作接口,具体的细节,你用MSDN查一下!!
    你要看懂原程序你必须对浏览器的DOM接口比较熟悉!!相关的资料网上很多!
    #有意思 发表于2006-05-11 11:52:00  IP: 218.69.88.*
    C#我不懂, 只想看个Demo程序,欣赏一下你的大作,能否给个无源码的Demo下载看看。
    另外,你的算法的效率如何?
    #roc 发表于2006-05-13 15:49:00  IP: 202.112.147.*
    作的不错 我正仔细看呢
    此外 微软的演示程序在 哪能下载呢 谢谢
    #roc 发表于2006-05-15 20:35:00  IP: 202.112.147.*
    IHTNLELement2 addBehacvior的地方 什么地方有详细介绍 呢 谢谢
    #tingya 发表于2006-05-16 09:23:00  IP: 202.117.15.*
    MSDN中有帮助,你只能自己看了.
    #顶 发表于2006-05-16 14:16:00  IP: 210.82.111.*
    #yohn 发表于2006-05-19 17:23:00  IP: 207.46.89.*
    thanks!
    #artemis 发表于2006-06-15 16:22:00  IP: 221.226.131.*
    顶啊,正好想找这方面的
    #nopower 发表于2006-06-22 16:27:00  IP: 210.77.8.*
    thx
    #Robet.ZDO 发表于2006-06-23 15:14:00  IP: 220.201.38.*
    多谢
    #tonydotcom 发表于2006-07-06 20:51:00  IP: 221.221.35.*
    downloading
    #ershixiong 发表于2006-07-17 16:32:00  IP: 220.231.40.*
    下载,希望能就这个问题深入探讨
    #threejiaomao 发表于2006-07-31 00:27:00  IP: 61.51.227.*
    我这的网络下载不了您的代码。不知能否给我发一份。
    yuanjue@3gv8.com

    我的对你的程序非常感兴趣,如有机会我们可以合作一下。
    #tingya 发表于2006-07-31 12:10:00  IP: 219.133.51.*
    你要怎么合作啊。呵呵
    #优雅强盗 发表于2006-09-18 15:30:00  IP: 219.142.192.*
    不错,
    #live41 发表于2006-10-18 10:31:00  IP: 219.137.200.*
    你好,我下载了你的代码,但是我想知道怎么可以利用该VIPS算法去提取一篇文章的标题及内容,

    而跳过广告栏和导航栏呢?

    例如以下这个页面,我怎么可以从tag中得到标题《手机用户将可以不改号选择运营商所有资费套餐》及下面的内容“新浪科技讯 10月17日……”

    http://tech.sina.com.cn/t/2006-10-17/13151187980.shtml



    另外,你所提及的这些没有实现的问题,是否已解决,或者是只用现在的那个代码就能解决我想要的问题?

    1、DOM结点提取算法没有采用微软的算法
    2、没有采用VIPS算法中的DoC概念
    3、采用的合并算法与VIPS算法不相同
    4、分割条的检测算法与VIPS算法相同



    致谢,请求回复。。。
    #live41 发表于2006-10-18 10:32:00  IP: 219.137.200.*
    你好,我下载了你的代码,但是我想知道怎么可以利用该VIPS算法去提取一篇文章的标题及内容,

    而跳过广告栏和导航栏呢?

    例如以下这个页面,我怎么可以从tag中得到标题《手机用户将可以不改号选择运营商所有资费套餐》及下面的内容“新浪科技讯 10月17日……”

    http://tech.sina.com.cn/t/2006-10-17/13151187980.shtml



    另外,你所提及的这些没有实现的问题,是否已解决,或者是只用现在的那个代码就能解决我想要的问题?

    1、DOM结点提取算法没有采用微软的算法
    2、没有采用VIPS算法中的DoC概念
    3、采用的合并算法与VIPS算法不相同
    4、分割条的检测算法与VIPS算法相同



    致谢,请求回复。。。
    #tingya 发表于2006-10-18 13:58:00  IP: 219.133.40.*
    VIPS算法并不进行内容分析,它只是葱视觉的角度进行模拟,因此你的标题提取以及正文目前无法实现。不过通过剔除一些噪音信息块也许可以实现。比如识别分块的坐标旧可以明确各个块的重要性。但是要提取标题等内容性的东西则非常难。另外
    1、DOM结点提取算法没有采用微软的算法
    2、没有采用VIPS算法中的DoC概念
    3、采用的合并算法与VIPS算法不相同
    4、分割条的检测算法与VIPS算法相同


    这几个问题都是已经解决的。
    #live41 发表于2006-10-24 10:43:00  IP: 219.136.13.*
    这几个问题都是已经解决的。

    是指在那份412的代码里已经解决了这四个问题吗?

    另外,我已经联系到dengcai本人,他的答复跟你一样,

    VIPS算法只负责分块,我正在根据它的分块在写内容提取

    比较郁闷的是,dengcai的dll传的参数是htmldocument的指针类型

    于是要用webbrowser来load,但是webbrowser又有bug

    如果可以直接用webclient的得到html代码然后分析就好了

    我还没看完你的代码,恩。。。我提个小建议

    就是希望重构一下代码,因为我看的时候发现代码比较不方便阅读


    最后,感谢你的答复……
    #tingya 发表于2006-10-24 13:00:00  IP: 219.133.40.*
    重构可能是不会了。呵呵,你就勉强看看吧。最近时间太忙,窝现在想做的就是不需要借助webbrowser就能实现分页。不过困难很多。
    #live41 发表于2006-10-24 19:27:00  IP: 219.136.13.*
    哈哈,同感啊!!

    我现在暂时先用上dengcai的dll,

    最后没能解决的问题就是webbrowser问题了

    真是的,用IHTMLDOMDocument获取webbrowser.Document.DomDomcument才能使用,

    但是直接用IHTMLDOMDocument.Write(HTML源代码)就不行

    郁闷啊~~~ 他怎么不提供一个直接解析HTML的呢~?
    #live41 发表于2006-10-25 02:06:00  IP: 58.62.104.*
    弄了一个晚上,

    为什么要依赖于webbrowser呢?

    是不是因为就这样用html生成IHTMLDocument2会连带javascript都编译了呢?

    #dream 发表于2006-10-31 03:06:00  IP: 59.104.28.*
    大大...我是初學者....對於你的技術非常嚮往....因為你說你的程式碼跟vips上得演算法有出入...對於我剛要研究程式和vips這項技術我有非常大的挑戰...請問大大可以將你的演算法的概念告知一下或是可以將你問題修改後的程式碼寄給小弟....這是小弟的mail: jkl_1979@hotmail.com
    #csuwhl@163.com 发表于2007-09-14 20:21:06  IP: 219.239.227.*
    下了一份,正在研究这个,万分感谢!
    #fancyerii 发表于2007-11-26 09:08:23  IP: 162.105.71.*
    下载不了啊,能不能给我发一份,fancyerii@gmail.com
    谢谢。
    #you_laner 发表于2007-12-19 14:45:28  IP: 58.211.115.*
    谢谢。
    我现在做核心内容提取,前段时间看过VIPS算法,但我觉得重要的问题还是在内容块的位置信息,这个除了IE解析外,还有没有其他办法?
    #tingya 发表于2007-12-23 11:05:30  IP: 58.33.47.*
    你说的非常的对。除了IE也是有其余的办法的,你可以借鉴开源的浏览器,比如WebCore,等等实现布局解析。IE不是唯一的办法
    #卫 发表于2007-12-25 17:22:29  IP: 159.226.43.*
    谢谢了
    #Amor 发表于2008-02-24 15:24:27  IP: 202.113.25.*
    Thanks a lot~
    #ljm 发表于2008-03-30 23:34:06  IP: 222.201.148.*
    ths ^_^
    #ippo 发表于2008-04-15 16:39:50  IP: 220.231.1.*
    thanks,牛人还是很多的!
    我比较关心的是分块后,内容和标题,时间等信息的抽取。目前有什么好的实现?
    #ippo 发表于2008-04-15 16:57:14  IP: 220.231.1.*
    还想请问 tingya,如果针对 需要客户端动态解析的如:javascript脚本的网页,目前有什么好的实现方法吗?希望指点!谢了!
    #tingya 发表于2008-04-18 11:02:16  IP: 210.13.69.*
    分块后的信息提取这个需要由专门的算法去实现,这块不是我们的研究重点。
    针对你说的javascript网页确实没有好的实现,起码我目前还不知道。
    #qingfeng 发表于2008-04-19 21:02:26  IP: 221.222.232.*
    Very Good.
    #allen 发表于2008-05-05 19:05:57  IP: 210.30.97.*
    good
    #koalasy 发表于2008-05-08 10:23:07  IP: 61.129.42.*
    很想学习一下,可以发一份代码给我吗?链接已经下载不了了,koalasy@gmail.com .
    3x very much
    #tonycai 发表于2008-05-08 10:38:31  IP: 121.0.31.*
    你好,代码可以发一份给我么?tongleecai@yahoo.com.cn,谢谢
    #Rocky 发表于2008-05-12 15:36:53  IP: 221.122.51.*
    您好,代码可以发一份给我么?wlnpu@126.com

    谢谢您。
    #jrff 发表于2008-05-15 14:19:08  IP: 220.231.9.*
    谢谢你,好人一生平安,代码可以发一份给我么?silvesea@tom.com
    #glddzyx 发表于2008-05-19 09:25:57  IP: 219.239.110.*
    谢谢
    #bingxpu 发表于2008-07-24 16:16:20  IP: 203.156.245.*
    你好,能否给我一份vips的代码,我也想边扯淡边编程,边吹牛边泡妞,嘿嘿!谢谢。
    bingxpu@yahoo.com.cn
    #cuiyuzheng 发表于2008-08-19 15:33:13  IP: 159.226.20.*
    您好,

    我也非常关注VIPS 算法,正准备自己写一下,
    想看看您的代码,以作为参考

    您的代码能发给我一份吗?我下不了啊…………!

    cuiyuzheng@126.com

    万分感谢……
    #ZCH611407 发表于2008-08-20 22:24:09  IP: 218.62.42.*
    ???????????好像下载不了了啊?
    #ZCH611407 发表于2008-08-20 22:34:13  IP: 218.62.42.*
    您的代码能发给我一份吗?
    zch611407@163.com
    谢谢!
    #akanswer 发表于2008-09-02 18:56:56  IP: 221.7.40.*
    您的代码能发给我一份吗?
    13ghost@sohu.com
    最好有演示程序~~~
    谢谢!
    #akanswer 发表于2008-09-02 18:57:04  IP: 221.7.40.*
    您的代码能发给我一份吗?
    13ghost@sohu.com
    最好有演示程序~~~
    谢谢!
    #akanswer 发表于2008-09-02 18:57:05  IP: 221.7.40.*
    您的代码能发给我一份吗?
    13ghost@sohu.com
    最好有演示程序~~~
    谢谢!
    #feelkill 发表于2008-09-16 17:43:52  IP: 219.245.117.*
    您的代码能发给我一份吗?
    feelkill@126.com
    对这个很感兴趣啊,我也正在研究这个的。
    #hzx 发表于2008-09-21 15:29:02  IP: 121.15.171.*
    文章写得很好 准备深入研究胰腺癌
    可以发份代码吗?十分感谢!
    hzx1984@gmail.com
    #hzx 发表于2008-09-21 15:29:12  IP: 121.15.171.*
    文章写得很好 准备深入研究胰腺癌
    可以发份代码吗?十分感谢!
    hzx1984@gmail.com
    #rushing 发表于2008-09-23 14:02:14  IP: 159.226.43.*
    您好,我最近也在做这方面的东西,能否给我发一份代码?我的邮箱:xsh_gra@126.com
    先谢过了~~~
    #eksong 发表于2008-10-06 21:55:22  IP: 58.16.41.*
    您好,最近做web信息抽取方面的研究,能发一份代码给我吗?email:eksong@live.cn
    3x
    发表评论  


    登录
    Csdn Blog version 3.1a
    Copyright © 张中庆