2016年04月_小学生反弹

12月 11月 10月 09月 08月 07月 04月 03月 02月 01月

原创 java爬虫之搜狐新闻爬虫（三）

有了上两篇的文章，这篇简单的将两篇文章结合起来，得到一个可以抓取，搜狐新闻首页的所有新闻。package com.sohu;import java.io.IOException;import java.util.*;import org.jsoup.*;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import

2016-04-15 18:50:09 560

原创 java爬虫之搜狐新闻爬虫（二）

我们可以发现搜狐新闻的新闻页都是有规律的比如： http://news.sohu.com/20160415/n444266195.shtml在浏览器中右键检查元素可以找到锁定文章标题，时间，来源的标签那么经过分析确定标签可以得到下面的代码：Elements h = doc.select("h1[itemprop]");//标题 System.out.println(h.text());

2016-04-15 18:40:31 851

原创 java爬虫之搜狐新闻爬虫（一）

最近开始学习java爬虫，网上很多教程，自己找的时候花了好久的时间去理解别人的思路。打算将自己最近的学习进度稍作整理，理清思路。主要工具使用jsoup：具体用法看http://blog.csdn.net/u012315428/article/details/51135640下面是获取一个网页中所有的超链接：package com.sohu;import org.jsoup.Js

2016-04-15 18:24:33 2024

原创搜狐新闻爬虫

小试身手，爬取搜狐新闻主页面上新闻的内容package com.test1;import java.io.IOException;import org.jsoup.*;import org.jsoup.helper.*;import org.jsoup.nodes.*;import org.jsoup.parser.*;import org.jsoup.select.*;publi

2016-04-12 19:45:51 1936

原创 jsoup的使用

hello在用了一段时间的正则表达式之后，一直想找个机会学习一下jsoup，据说是解析网页的神器，但苦于官方的英文文档。迟迟没有动手自从看了youtube上的jsoup的视频之后，短短几行就实现了之前几十行的任务，（爬取网页上的所有超链接），这坚定了我学习jsoup的决心，结合中文文档和英文文档，花了大概两天的时间，大概了解了一下jsoup的使用，对于正则表

2016-04-12 17:47:08 3886

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 java爬虫 之 搜狐新闻爬虫（三）

原创 java爬虫 之 搜狐新闻爬虫（二）

原创 java爬虫 之 搜狐新闻爬虫（一）

原创 搜狐新闻爬虫

原创 jsoup的使用

空空如也

空空如也

原创 java爬虫之搜狐新闻爬虫（三）

原创 java爬虫之搜狐新闻爬虫（二）

原创 java爬虫之搜狐新闻爬虫（一）

原创搜狐新闻爬虫