一个爬电商数据并实现搜索的例子

这是一个抓取电商商品信息,并提供搜索接口的例子。

采用的技术:

代码管理github

持续集成gradle

web框架rose3.0(基于Spring3.0)

数据库mysql

商品抓取id遍历,Jsoup解析网页

搜索lucene


现在的接口:

抓取数据:http://localhost/spider,把易迅的数据抓取下来,只抓一万个左右,放在数据库中
生成索引:http://localhost/index,把数据库中的数据用lucene来做索引
搜索结果:http://localhost/search?keyword=midea&begin=0&count=20&cate=饮水机&minPrice=100.1&maxPrice=2000
必填:keyword 是关键字,对名称和描述有用,begin和count是对结果翻页
选填:cate是分类,也是用lucene做的索引,还有就是价格区间的选择
搜索建议:http://localhost/suggest?begin=0&count=100&keyword=meiru

是对名称做了最前匹配,包括名称的拼音和首字母
查看所有数据:http://localhost/list?beginId=1&count=100beginId:开始的id,count:数量


现在的电商中,京东和易迅id是顺序的,amazon和当当的id是hash的,所以我的这个demo只能抓京东和易迅的数据。但是京东的价格不是直接展示在页面上,而是通过js单独发请求得到的,比较麻烦,第一版demo暂时只能抓取易迅的数据。

搜索分搜索建议和搜索结果,搜索建议是把商品名称做了汉子,汉子转换成全拼及首字母的前缀匹配;搜索结果是对商品名称和描述做了全文索引。

github地址https://github.com/LiuGangR/SpiderAndSearchDemo

gradle很好用,不会自己学学

有建议欢迎讨论


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值