有了需要爬取的起点队列。
接下来就可以细看一下源码中html的规则。
上面这一段就是一个商品在html源码中的结构。
这里面包含了,卖家头像,ID,vip等级,主页,各种图片,商品基本信息,地址等等东西
当然,我们不需要全部的信息,
我们只需要卖家ID,商品标题,内容,价格,发货地,成色,主页链接,图片链接,这样就够了。
我的思路是构造一段正则表达式来遍历整个网页源码,因为结构相似,我们可以抓取到商品的信息。
如果有更好的思路,欢迎指点或者互相交流。
如下public static void patter_goods_andpage(String text){
Pattern pattern=Pattern.compile("
[\\s\\S]+?
[\\s\\S]+?
[\\s\\S]+?
[\\s\\S]+?
[\\s\\S]+?
[\\s\\S]+?(.*?)[\\s\\S]+?[\\s\\S]+?
[\\s\\S]+?
(.*?)
[\\s\\S]+?
[\\s\\S]+?
[\\s\\S]+?
[\\s\\S]+?
[\\s\\S]+?(.*)[\\s\\S]+?
[\\s\\S]+?
[\\s\\S]+?