[置顶] PHP之数据采集[抓取阿里巴巴上宁波企业的详细信息] - 非正则实现
现在有很多人在做数据采集,个人感觉这个就类似于小偷程序.对于网页中的信息摘取说白了就是通过分析每页的静态HTML元素的值来提取个人需要的信息而已.说白了就是HTML文档分析.传统的做HTML采集大多是靠正则表达式来实现.
但是说出来不怕你笑话,正则一直就是俺最最拿不出手的东西,这里主要DOM解析的方式来实现的.
主要阐述的关键就是: 简单就是美! 怎么简单怎么来,一直喜欢Rebol语言的宗旨:
原创
2016-08-25 16:52:48 ·
1098 阅读 ·
0 评论