第一步:编写工具类 (util)
“页面下载工具类” (PageDownLoadUtil )
利用httpClient工具类;
第二步:编写实体类 (entity)
“保存页面信息实体类” (page)
第三步:编写服务类接口 (serviceapi )
“页面下载接口” (IDownLoadService)
“页面解析接口” ( IProcessService )
第四步:编写实现类 ( impl )
“HttpClient页面下载实现类” (HttpClientDownLoadServiceApi)
“YOUKU页面解析实现类” (YOUKUProcessService)
第五步:爬虫执行入口类 (start)
“电视剧爬虫执行入口类 ” (StartDSJCount )
第六步:完善YOUKU页面解析实现类
通过正则表达式,获取到页面相关的数据