java_github_crawler
爬虫项目
周末的丢
这个作者很懒,什么都没留下…
展开
-
一:获取到所有待收集信息的项目列表
步骤: 获取到所有待收集信息的项目列表 遍历项目列表 依次获取到每个项目的主页信息 进一步就可以直到该项目的star数 fork数 issue数 把这些数据存储到mysql中 写一个简单服务器 来展示数据库中的数据(通过图标的形式 看到一个更直观的效果) 一.获取到所有待收集信息的项目列表 自己写一个爬虫程序,访问Awesome-java这个页面,然后进一步获取这个页面上所有项目链接的信息 ...原创 2020-03-24 16:39:58 · 690 阅读 · 0 评论 -
三:数据存储之如何存储
目录三、数据存储3.1设计表结构3.2管理数据库连接 步骤: 获取到所有待收集信息的项目列表 遍历项目列表 依次获取到每个项目的主页信息 进一步就可以直到该项目的star数 fork数 issue数 把这些数据存储到mysql中 写一个简单服务器 来展示数据库中的数据(通过图标的形式 看到一个更直观的效果) 三、数据存储 在我的上一篇博客中,我已经将完成了将页面数据分析出来并放到一个Arra...原创 2020-03-24 16:40:44 · 448 阅读 · 0 评论 -
四:数据存储之优化
在上一节数据存储中,我遍历了projects并且把数据存储到了数据库,但是时间有点长,这一节我们主要是分析并优化这个存储过程 目录一:获取到所有待收集信息的项目列表二:遍历项目列表,依次获取到每个项目的主页信息,进一步就可以直到该项目的star数、fork数、issue数三:数据存储之存储四:数据存储之优化(本文) 步骤: 获取到所有待收集信息的项目列表 遍历项目列表 依次获取到每个项目的主页信...原创 2020-03-24 16:41:31 · 311 阅读 · 0 评论 -
五:展示模块
五:展示模块 我已经把数据都存储到Mysql数据库了,那么我就可以写一个Servlet程序从数据库拿数据并用网页展示出来啦 我这个项目一个比较核心的功能就是展示每一天Github上项目火热的趋势,就是爬取,也就是展示每天的排行 5.1:根据指定日期获取数据库信息 扩充ProjectDao类,新增一个方法,可以根据指定日期获取数据库信息 public class ProjectDao { publ...原创 2020-03-24 16:48:29 · 467 阅读 · 0 评论 -
0:爬虫项目
什么是爬虫 本质上是一个Http客户端 , 和浏览器相比更为简单一些 我们根据需要构造请求,并且再根据需要简单的解析一下响应数据 爬虫的程序的优势就在于可以根据需要批量获取数据 这个项目爬取Github中的一个叫Awesome-Java 项目 在Awesome-java中能够看到很多的Java中开源第三方库还有框架 具体的再点进去可以看到项目中的具体信息(star , fork , open_i...原创 2020-03-24 16:40:59 · 336 阅读 · 0 评论