致歉
首先感谢博友对这个系列的支持,很多加群的人都问我啥时候更新,我一直回答尽快,结果一拖就一年了。因为工作和生活占据我大量的时间,所以只能跟大伙说声抱歉。
使用正则获取数据
前两篇讲到如何采集html数据,那采集回来肯定要截取我们有用的部分,举个例子。我们要采集搜狐新闻的社会栏目,地址如下:
http://news.sohu.com/shehuixinwen.shtml
我们首先获取到新闻列表,看上两章介绍到使用xNet获取到搜狐新闻的社会栏目的html源码,当然你可以使用httprequest或者第三方组件。代码如下:
var html = string.Empty;
using (var request = new xNet.HttpRequest())
{
html = request.Get("http://news.sohu.com/shehuixinwen.shtml").ToString();
}
得到html值:
var pvinsight_page_ancestors = '143746642;143746651';
社会新闻-搜狐新闻.....
if(_wratingId !=null){
document.write('');
document.write('var vjAcc="'+_wratingId+'";');
document.write('var wrUrl="http://sohu.