爬虫
hahahahaokaixin1
这个作者很懒,什么都没留下…
展开
-
爬虫记忆——【基础】Jsoup的基本使用
本篇文章将介绍一个新的工具——jsoup,使用它,我们可以解析网页,按照我们的想法,从网页中提取出有用的数据。配合之前介绍的httpclient,也就可以满足一个最基本爬虫的功能了。 首先,应该把获取到的网页信息转化成jsoup认识的数据结构,jsoup提供了如下的api,其返回的对象为Document:static Document parse(File in, S...原创 2018-06-12 17:26:55 · 252 阅读 · 0 评论 -
爬虫记忆——起因
2015年初,眼看还剩几个月就要毕业了,可是我还没有找工作,周围很多同学都已开始实习,慢性子的我一下子也开始有点着急了,所以赶紧准备简历,海投出去,到处面试。不久,便收到了一份创业公司的offer,我这人比较懒,而且一开始也只是当作实习工作而已,便不再去其他面试了,直接进入了这家公司,可是,真的万万没想到,这份工作我竟然从实习开始一直做到现在,公司从当初的不到10人的“小作坊”,到...原创 2018-06-05 21:47:00 · 223 阅读 · 1 评论 -
爬虫记忆——【基础】基本工具准备
当今,数据为王,从大量的数据中我们可以分析出很多有价值的甚至是高价值的信息,但是,又有多少公司或者组织能自身就产生大量数据呢?这并不多,因为这样的公司或者组织是需要一定规模的体量的,另外,有些组织自身就不产生数据,例如高校的老师和同学,常常苦于无法获取有效数据而导致研究进展缓慢。 所以,我们需要一种工具,来帮助我们获取想要的数据,这种工具就是“爬虫”。 ...原创 2018-06-06 13:35:21 · 219 阅读 · 1 评论 -
爬虫记忆——【基础】httpclient的基本使用
在上一篇文章中介绍了两个工具,用于开发最最基本的爬虫,这两个工具分别是httpclient和jsoup,这篇文章中,将对httpclient做一些基本的介绍。 首先,我们通过maven引入httpclient的包,如何引入在此不做过多介绍了,引入之后,我们就可以愉快地使用httpclient了,第一步,我们先定一个小目标,那就是获取百度首页地网页信息,很简单,代码如下...原创 2018-06-06 18:21:46 · 487 阅读 · 0 评论 -
爬虫记忆——【基础】简化httpclient的使用
在上一篇文章中,简单介绍了httpclient的最基本的使用方式,并且通过httpclient获取里百度首页的页面信息,但是有没有发现一个问题,这么简单的一个操作,却写了不少的代码!程序员其实都挺懒的,这么不优雅的编程方式肯定受不了啊,那现在,我们再定一个小目标,我们将对httpclient进一步封装,封装完成之后,希望最好通过一行代码就能获取某个网页的信息!既然要封装,那首先需要...原创 2018-06-07 13:35:45 · 277 阅读 · 0 评论