java 扒网站_从网站中“扒”新闻

元旦放假三天,天气很冷没有打算出去玩,就在家里琢磨着弄一下扒网站新闻,主要是同寝室的一个同事在弄,所以想学点东西,自己也动手写了一个,思路很简单,下面就描述一下是怎么实现的吧!

首先进入主页网站中,然后选择自己想“扒”的信息模块,例如是新闻、经济、娱乐等等或者其他什么的,这样就能找到自己需要信息,然后把这个模块的url链接地址给读取出来,然后遍历读取到的URL地址,读取信息的内容。

现在的网站一般都是动态生成的,也就是说新闻信息页面有自己的模板,那么所有的信息肯定是在某个DIV或者是容器中,只要找到这个控件的ID就能够得到里面的数据,然后把里面的数据找出来。

下面的代码是我测试了某网站的信息,已经读取到了信息列表,先弄上去供大家参考,为了防止某些人恶意攻击,因此我删除了具体的链接地址

package hb.downweb;

import java.io.BufferedReader;

import java.io.File;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.InputStreamReader;

import java.net.MalformedURLException;

import java.net.URL;

import java.net.URLConnection;

import java.util.LinkedList;

import java.util.List;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

/*

* 从网上扒新闻信息

*/

public class Main {

//显示新闻列表的地址

private static final String http_url = "显示信息列表的URL地址";

//找到需要扒的信息模块的ID

private static final String summaryBlock = "id=\"blist\"";

//显示的信息以什么HTML标签结束

private static final String endSummaryBlock = "";

//存储网页中的链接标签

public static List list = new LinkedList();

public static void main(String[] args) {

//想要抓取信息的页面

StringBuffer stringBuffer = new StringBuffer();

try {

//通过字符串得到URL对象

URL url = new URL(http_url);

//远程连接,得到URLConnection对象(它代表应用程序和 URL 之间的通信链接)

URLConnection conn = url.openConnection();

int find_flag = 0;//表示没有找到需要的内容

//从连接中读取数据流,

BufferedReader reader = new BufferedReader(new InputStreamReader(conn.getInputStream()));

String line;

while((line = reader.readLine()) != null){

//找到了需要下载链接模块

if(line.indexOf(summaryBlock)!= -1){

find_flag = 1;//表示找到了需要的内容

}

//需要新闻模块的结束标记

if(line.indexOf(endSummaryBlock) != -1){

find_flag = 2;//表示需要找的内容结束了

}

//将找到的信息放入stringBuffer中

if(1 == find_flag){

stringBuffer.append(line);

}

//需要找的信息已经结束

if(2 == find_flag){

System.out.println("over");

find_flag = 0;

}

}

System.out.println(stringBuffer);

//使用正则表达式获取想要的字符串

Pattern pattern = Pattern.compile("[0-9]{5}\\.htm");

Matcher matcher = pattern.matcher(stringBuffer);

System.out.println(matcher.find());

while(matcher.find()) {

//将连接的地址存储到list容器中

list.add("显示具体信息地址目录" + matcher.group());

//下面显示匹配的内容

//System.out.println(matcher.group());

}

//读取具体链接信息内容

readNews(list);

} catch (MalformedURLException e) {

e.printStackTrace();

} catch (IOException e) {

e.printStackTrace();

}

}

/*

* 读显示新闻的网页

*/

public static void readNews(List list){

String flagName = "news";

for(int i = 0; i < list.size(); i++){

//得到的是每篇文章的链接地址

String temp = list.get(i);

String filename = "";

filename = flagName + i+".txt";

//将下载的网页信息保存到文件中

getNewsContent(temp,filename);

}

}

/*

* 将显示新闻的网页的内容存放在本地文件中

*/

public static void getNewsContent(String httpLink,String fileName){

try {

System.out.println("getNewsContent : " + httpLink);

//通过URL产生链接到具体的网页,然后读取数据

URL url = new URL(httpLink);

URLConnection conn = url.openConnection();

//这里读取的网页内容一定要注意后面的编码,跟网页的报纸一致,否则在后面存储在文件中的也为乱码

BufferedReader reader = new BufferedReader(new InputStreamReader(conn.getInputStream(),"UTF-8"));

String tempStr;

//根据显示具体网页个格式,找到对应的模块,然后读取出来存储在文件中

File file = new File(fileName);

FileOutputStream fos = new FileOutputStream(file);

String class_name = "class=\"content2";

String end_content = "

";
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值