手把手写个爬取it博客的网站-技术选型

陆陆续续折腾一周的网站上线了,地址在这里http://itblog.enilu.cn

这个网站主要汇聚了一些优秀的IT类博客的文章索引,用户在这里就可以看到全网很多大牛和牛X团队的技术博客,可谓干货满满。

针对这个网站的实现过程,分为8篇文章分别说明:

0.手把手写个爬取IT博客的网站-提纲
1.手把手写个爬取IT博客的网站-需求分析
2.手把手写个爬取IT博客的网站-技术选型
3.手把手写个爬取IT博客的网站-框架搭建
4.手把手写个爬取IT博客的网站-数据采集
5.手把手写个爬取IT博客的网站-数据展示
6.手把手写个爬取IT博客的网站-域名申请和服务器采购
7.手把手写个爬取IT博客的网站-系统上线
8.手把手写个爬取IT博客的网站-网站优化

 

 

本篇为本系列文章的第二篇:手把手写个爬取IT博客的网站-技术选型

技术选型主要针对几个方面:

语言

毫无疑问作为java程序员,肯定不会选择其他的,另外……“java是世界上最好的语言”,不接受辩论!不接受反驳!

主体框架

既然选择java语言,主体框架自然离不了spring boot,前端模版选择Thymeleaf。 spring boot 是最火的java 开发框架,Thymeleaf是例子默认使用的引擎。 选择这两款做java web开发,错不了。

前端

由于我不是前端,前端技术渣的一比,所以就直接选择了Bootstrap这个前端框架,这个框架提供了响应式布局、栅格系统和大量的预定义组件, 非常适合我们这些前端小白使用,点击这个地址可以了解Bootstrap

数据采集

数据采集使用Jsoup,由于我要爬取的网站都不是特别复杂,所以不需要用特别复杂的爬虫软件。而且Jsoup可以像jquery操作dom一样来提取网页中的数据,做网页解析非常简洁方便。 尤其方便的是它还提供了一个在线解析的工具https://try.jsoup.org/,你可以把要解析的网页复制到左边输入框中,然后输入解析代码进行解析测试。

数据库

考虑到要抓取的文章并不多,以及后期投入的服务器资源有限,所以采用嵌入式数据库sqlite,不仅消耗资源少,而且可以满足需求,更重要的是这个数据库与mysql基本兼容,后期即使迁移到mysql也不会做太多改动。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值