由于电商行业经常需要对价格进行监控,而什么值得买本身就是一个比价网站,那么这个网站对很多电商具有一定的参考性;本文用R进行什么值得买的相关信息提取,针对这个信息,可以对商品走势进行详细分析;当然,另一个先分析这个网站的原因是该网站比较简单,逻辑相对清楚(尽管也不是很清楚)。下面开始;
首先先观察这个网站的结构和源码,比如我搜索个空调,那么网址变成:
http://search.smzdm.com/?c=home&s=空调
可以多试几次,搜索的内容都是在
http://search.smzdm.com/?c=home&s=
后面加上搜索的东西,这是不是普遍规律呢?
让我们看看源码:
<form action="//search.smzdm.com/" id="sub-search-form">
<div class="search-wrap">
<div class="search-input-wrap">
<input type="hidden" name="c" value="home">
<input id="J_search_input" type="search" name="s" class="search-input" value="空调" autocomplete="off">
</div>
<button type="submit" class="search-submit" _hover-ignore="1"><i class="z-icons z-icon-search"></i></button>
</div>
</form>
看到 是get方式的form,同时默认点击搜索框出来的是空调;看如下两段代码:
<div class="search-input-wrap">
<input type="hidden" name="c" value="home">
<input id="J_search_input" type="search" name="s" class="search-input" value="空调" autocomplete="off">
</div>
可以清晰的看到,搜索框中有两个传递给服务器的,一个name是c,隐藏字段,一个是s,这个是搜索字段,所以网址上的c可以忽略,因为每次都是