关于此项目的后台搜索核心部分就是爬虫了,因为之前没有接触过Java爬虫的编写,因此上网找了一些相关Demo来学习,下边这个博主写的demo很实在也够基础,起码扩展性是非常强的。
因为此demo只是设置了链接、关键字、和请求类型,但对于爬到的数据没有进行清洗。所以,根据需要,为自己想要的信息使用Jsoup,进行筛选。
边学边用也就大致清楚了,有用过Python的话,其实用法跟BeautifulSoup差不多。
思路大概如下:
1.找到目标的标签位置
如何快速定位目标位置 ?
Tips:
在Chrome中,右键单击目标位置->审查元素->右键选中位置->Copy->Copy selector
上图
快速定位目标位置.png
2.发起数据请求
先分析使用搜索时,对哪个地址发起请求,请求类型是什么(GET / POST) ,使用Chrome的NetWork 工具进行分析(在搜索结果页面开着Network重新刷新页面便能记录下来),(已划重点)
数据请求的信息.png
这里可以看出,是向 http://www.baikemy.com/search/searchlist发送了POST请求,而且还带着两个参数,title