自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 java爬虫 之 搜狐新闻爬虫(三)

有了上两篇的文章,这篇简单的将两篇文章结合起来,得到一个可以抓取,搜狐新闻首页的所有新闻。package com.sohu;import java.io.IOException;import java.util.*;import org.jsoup.*;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import

2016-04-15 18:50:09 560

原创 java爬虫 之 搜狐新闻爬虫(二)

我们可以发现搜狐新闻的新闻页都是有规律的比如: http://news.sohu.com/20160415/n444266195.shtml在浏览器中右键检查元素可以找到锁定文章标题,时间,来源的标签那么经过分析确定标签可以得到下面的代码:Elements h = doc.select("h1[itemprop]");//标题 System.out.println(h.text());

2016-04-15 18:40:31 851

原创 java爬虫 之 搜狐新闻爬虫(一)

最近开始学习java爬虫,网上很多教程,自己找的时候花了好久的时间去理解别人的思路。打算将自己最近的学习进度稍作整理,理清思路。主要工具使用jsoup:具体用法看http://blog.csdn.net/u012315428/article/details/51135640下面是获取一个网页中所有的超链接:package com.sohu;import org.jsoup.Js

2016-04-15 18:24:33 2024

原创 搜狐新闻爬虫

小试身手,爬取搜狐新闻主页面上新闻的内容package com.test1;import java.io.IOException;import org.jsoup.*;import org.jsoup.helper.*;import org.jsoup.nodes.*;import org.jsoup.parser.*;import org.jsoup.select.*;publi

2016-04-12 19:45:51 1936

原创 jsoup的使用

hello在用了一段时间的正则表达式之后,一直想找个机会学习一下jsoup,据说是解析网页的神器,但苦于官方的英文文档。迟迟没有动手自从看了youtube上的jsoup的视频之后,短短几行就实现了之前几十行的任务,(爬取网页上的所有超链接),这坚定了我学习jsoup的决心,结合中文文档和英文文档,花了大概两天的时间,大概了解了一下jsoup的使用,对于正则表

2016-04-12 17:47:08 3886

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除