【中国大学MOOC】java程序设计-week9-请改进本讲中的两个示例中的一个:“背单词”或“网络爬虫”

此博客介绍了一个改进版的网络爬虫程序,它具有图形化界面,用户可以输入URL启动爬虫。程序会抓取网页内容并在界面上显示,同时检测是否为有效的网页(含有HTML标记)。若检测到非网页内容,则不会显示。程序还具备解析网页,提取链接并进一步爬取的能力,提高了用户体验和效率。
摘要由CSDN通过智能技术生成

1.题目

请改进本讲中的两个示例中的一个:“背单词”或“网络爬虫”。你可以根据你的想法来改进,以下是一些改进意见可以参考:

“背单词”:界面可以再好看一点;可以去掉音标;可以改变单词显示的速度;可以增加标记生词并记到生词本中;可以增加测试的功能(单词含义可以随机选4个词的含义来让用户选择)等等。

“网络爬虫”:界面可以做成图形化界面;下载时可以判断是不是网页(其中有HTML标记);可以猜测网页的编码(charset);可以避免循环下载(将已下载过的网页记下来);可以处理相对地址;可以记录下来网页中得到的email地址等等。

评分标准:

程序能正常运行,使用了流或文本相关功能(5分);

程序中在示例的基础上增加了功能(4分);

程序有一定的复杂度或较好的创意或较好的界面(1分)。

2.题解

/* encoding = GBK */
 
import javax.swing.*;
import java.awt.*;
import java.awt.event.ActionEvent;
import java.awt.event.ActionListener;
import java.net.MalformedURLException;
import java.net.URL;
import java.io.*;
import java.util.*;
import java.util.List;
import java.util.concurrent.*;
import java.util.regex.*;
import java.nio.charset.*;
 
/*
网络爬虫图形化应用界面程序
功能: 输入Url网址,点击“Crawl”爬虫启动按钮,可以检索该网址内容并在中央显示,同时在底端显示这些内容对应的Url网址链接;
再次点击“Crawl”爬虫启动按钮,可以对当前网址内容进行解析,并且提取其中有效网址进行更深一步的爬虫;
如果检测到非网址内容(无HTML标记),则不显示内容;
 */
class URLCrawler extends JFrame implements ActionListener
{
   public static ConcurrentLinkedQueue<String> urls =
         new ConcurrentLinkedQueue<>();
 
   JLabel url = new JLabel("Input the Url", JLabel.CENTER);
   JTextField turl = new JTextField("https://www.baidu.com");
   JButton crawler = new JButton("Crawl");
   JTextArea tresult = new JTextArea();
   JScrollPane tresultScroll = new JScrollPane(tresult,
         JScrollPane.VERTICAL_SCROLLBAR_ALWAYS,
         JScrollPane.HORIZONTAL_SCROLLBAR_ALWAYS);
   JLabel urlCrawler = new JLabel("URL Crawler", JLabel.CENTER);
   JTextField turlCrawler = new JTextField();
 
   public URLCrawler(){
      super("网页爬虫");
      turl.setHorizontalAlignment(JTextField.CENTER);
      tresult.setLineWrap(true);
 
      JPanel pnlBody = new JPanel(new BorderLayout());
      pnlBody.add(BorderLayout.WEST, url);
      pnlBody.add(BorderLayout.CENTER, turl);
      pnlBody.add(BorderLayout.EAST, crawler);
 
      JPanel pnlencod = new JPanel(new GridLayout());
      pnlencod.add(urlCrawler);
      pnlencod.add(turlCrawler);
 
      getContentPane().setLayout(new BorderLayout());
      getContentPane().add(BorderLayout.NORTH, pnlBody);
      getContentPane().add(BorderLayout.CENTER, tresultScroll);
      getContentPane().add(BorderLayout.SOUTH, pnlencod);
 
      crawler.addActionListener(this);
 
      setDefaultCloseOperation(WindowConstants.EXIT_ON_CLOSE);
      setSize(400, 400);
      setVisible(true);
   }
 
   @Override
   public void actionPerformed(ActionEvent e) {
      Object source = e.getSource();
      if(source == crawler) {
         try {
            handlecrawler();
         } catch (Exception exception) {
            exception.printStackTrace();
         }
      }
      else
         System.out.println("Error");
   }
 
   public void handlecrawler() throws Exception {
      urls.add(turl.getText());
 
      if(!urls.isEmpty()){
         String url = urls.poll();
         System.out.println("URL:-->:"+url);
         turlCrawler.setText(String.valueOf(url));
         String content = download(new URL(url), "utf-8");
         if(content.equals("false")){
            System.out.println("检测到非网页,无HTML标记!");
            tresult.setText("检测到非网页,无HTML标记!");
         }
         else{
            tresult.setText(content);
            List<String> moreUrl = parse( content );
            urls.addAll(moreUrl);
         }
      }
   }
 
   static List<String> parse(String text) {
      String patternString = 
         "\\s*href\\s*=\\s*(\"([^\"]*\")|(\'[^\']*\')|([^\'\">\\s]+))\\s*"; 
      Pattern pattern = Pattern.compile(patternString, 
         Pattern.CASE_INSENSITIVE  );  //  Pattern.MULTILINE
      Matcher matcher = pattern.matcher( text );
      List<String> list = new ArrayList<>();
      while (matcher.find()) {
         String href = matcher.group(1);
         href = href.replaceAll("\'","").replaceAll("\"","");
         if(href.startsWith("http:") )
            list.add(href); 
      }
      return list;
   }
 
   static String download( URL url, String charset)
      throws Exception
   {
      try(InputStream input 
            = url.openStream();
         ByteArrayOutputStream output 
            = new ByteArrayOutputStream())
      {
         byte[] data = new byte[1024];
         int length;
         while((length=input.read(data))!=-1){
            output.write(data,0,length);
         }
         byte[] content = output.toByteArray();
         String str_result = new String(content, Charset.forName(charset));
 
         /*************下载时可以判断是不是网页(其中有HTML标记)*****/
         if(str_result.contains("html")){
            return str_result;
         }
         else{
            return "false";
         }
         /*****************************************************/
      }
   }
    
   public static void main(String[] args)
         throws Exception {
      SwingUtilities.invokeLater(()->{
         new URLCrawler();
      });
   }
}
英语单词重不重要?重要!就像再高的大楼也是一块一块的砖石垒集而成的。我们学英语时背记单词已成了必不可少的一项内容,但是,浩瀚无垠的词汇海洋如何一口喝得完呢?   这时,我们需要水滴石穿的精神,长期坚持,积少成多;但是,每天抽出专门的时间和精力来背记单词,即枯燥又费时,也不是每个人能坚持持长久的。有没有一个的方法呢?即能每天背记一定量的单词,又不必花费专门的时间和精力呢?   ---答案是:有!   点点滴滴背单词就是为解决这个问题所写的,通过在电脑屏幕显示一浮动窗口,不断显示英语单词,发出读音,您在工作或娱乐时偶尔瞧一两眼即可,不必特意去背,这样,在您不知不觉,就已点点滴滴地背记了大量的单词;而且,其程序的显示窗口可以像Windows的任务条一样,固定位置或自动隐藏,一点也不影响您做其它事;甚至,它也可以后台运行,在任何您指定的窗口的标题条上显示单词;单词综合测验系统有助于您检验对单词的掌握度和加深对单词的熟悉度;还可以输出考题打印成卷。 主要功能: 1、 带有48大词库,约1170719个单词。而且新的词库不断增加,点击这里了解和获取。 2、 强大的语音发音引擎TTS(Text To Speech)支持,准确、流畅地读诵各种英语单词和英语文章。而且可以随意控制发音角色及发音速度等。 3、 方便易用的词库编辑器使您可以修改、编辑旧有的词库,还可添加新的单词。 4、 文章朗读器可以使您轻松自在地聆听和学习长篇的英文文章。 5、 多样的单词窗口显示技术,使您可以更加方便地背记单词和工作娱乐,互不冲突。   (1)Windows任务条式窗口显示:就像Windows的任务条一样,固定位置或者自动隐藏,一点也不影响您做其它事。   (2)普通悬浮式窗口显示:可以选择固定窗体大小或者随单词不同而自动调整大小。   (3)其它程序窗口标题条显示:可以在指定的一个窗口的标题条上显示单词;也可以所有的窗口的标题条上显示单词;也可以总在最上面的一个窗口的标题条上显示单词。 6、 支持窗口界面的换肤。您可以随意改变单词显示窗口的背景颜色,也可以换用各种图片做窗口的背景。 7、 支持单词、音标和解释的三维文字显示效果。 8、 可以保存和读取单词学习的进度。 9、 遇到不熟悉或难记的单词可以加入生词本,以后再重点背记。 10、 单词的显示方式多种多样:   (1)可以由程序控制自动显示;也可以手动显示,您按下键盘任意键则显示下一个单词。   (2)可以选择是顺序显示单词、逆序显示单词或随机次序显示单词。   (3)可以控制单词轮换的间隔时间。   (4)可以选择是否词意缓出,可以控制词意缓出的时间。   (5)可以选择单词、音标和解释的显示或不显示。 11、 方便有效的单词分组功能,使您能更好的背记单词。 12、 可以自定义热键来操作多种常用的功能。 13、 单词综合测验系统有助于您检验对单词的掌握度和加深对单词的熟悉度;还可以输出考题打印成卷。 14、 附带了英语语法、学习常识、不规则动词表等等很多学习与参考资料。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值