- 博客(3)
- 收藏
- 关注
原创 爬虫的基本原理及其架构
目录总述网络爬虫的遍历策略架构1.总述通常,访问一个网页,需要一个初始URL,然后通过这个页面的超链接才能跳转到其他页面。同理,一个爬虫通过初始URL列表(种子链接)访问到初始网页,并提取其中的URL添加到工作队列,判断该工作队列的URL是否访问过页面;是,从工作队列中移除并添加到以遍历表;否,放进工作队列,继续访问页面,流程图如下以爬取博客园文章标题为例2.网络爬虫的遍历策略...
2019-11-15 20:10:04 1744
原创 Java爬虫:脚本之家电子书的信息提取
文章目录概述提取链接代理池的搭建及应用多线程的应用以提高提取电子书信息的速度信息提取信息存储遇到到问题及解决方案运行结果总结1.概述本次对脚本之家电子书信息提取采用结构化信息提取。结构化提取是指把提取的数据结构定义成一个类,然后有一个解析网页的方法根据输入网页返回解析出来的类实例,具体内容可参考《解密搜索引擎技术实战》第三章索引内容的提取。定义好用来接收网页数据的电子书信...
2019-11-12 18:27:37 795
原创 Java爬虫:对猫眼电影进行信息采集并存入Excel
Java爬虫:对猫眼电影进行信息采集并存入Excel采集的目标以及内容提取的信息封装为一个类获得总点评人数,想看人数,已看人数注意获得总点评人数,想看人数,已看人数的数据的方法图片链接,上映时间等进行信息提取提取的结果存入Excel采集的目标以及内容目标:TOP100榜,最受期待榜,热映口碑榜,国内票房榜,北美票房榜。内容:图片,电影名,上映时间,主演人员,电影链接,电影评分,总点评人数,想...
2019-11-07 21:03:26 802
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人