大数据
Aries丶方
就读于河南理工大学,工作于魔都上海,苦逼程序员一枚。
展开
-
【网络爬虫】数据采集——将html的数据分析保存到数据库
上篇文章,介绍了Heritrix爬取土木在线网的一些html数据,今天介绍如何将这些数据导入数据库。 首先建立一个web工程,写好domain,这是javaweb的基础,不在过多介绍。 package cn.hpu.edu.heritrix.domain; public class Extractor_TuMu { private String id; private String t原创 2015-12-03 08:53:46 · 5131 阅读 · 0 评论 -
【网络爬虫】数据的采集——爬取土木在线网的数据
通过上篇文章的介绍,对Heritrix有了一定的了解。今天自己定义爬取逻辑,对土木在线网的图纸信息进行了爬取。我讲的不是很详细,大家可以去看看视频: http://edu.ibeifeng.com/view-video-id-491.html 首先,在后台定义爬取的逻辑,通过观察土木在线网(www.co188.com)的网页链接,我们发现,同一类目下,仅仅尾部不同,因此用正则表达式去代替。原创 2015-12-03 08:08:20 · 2239 阅读 · 0 评论 -
【网络爬虫】数据的采集——Heritrix1.x的配置过程
很长时间没有写博客了。Java学的过程中许多零碎的知识是很有必要写博客记录下来的。尤其对于初学者。 这里介绍利用Heritrix1.14.4对数据进行采集。 当下知名的网络爬虫有Heritrix和Nutch。两者各有利弊: Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页面原貌 Nutch 可以修剪内容,或者对内容格式进行转换。 Nutch 保存内容为数原创 2015-12-02 16:31:28 · 898 阅读 · 0 评论