android Jsoup获取网站内容(实例为新闻标题获取) —android网络必学

近期做简单的新闻客户端界面使用到了Jsoup获取,使用起来特别方便,这也是被我一个学长称为学android网络必学的一个东西,在此也是分享一下自己近期所学。


首先还是给出效果:




上面是通过textview显示的一个从网站上获取的所有内容的显示,下面是通过listview显示一下获取的新闻的标题,如此显示比较便于理解。



MainActivity:

[java]  view plain  copy
  1. import android.app.Activity;  
  2. import android.content.Intent;  
  3. import android.net.Uri;  
  4. import android.os.AsyncTask;  
  5. import android.os.Bundle;  
  6. import android.text.method.ScrollingMovementMethod;  
  7. import android.util.Log;  
  8. import android.view.Menu;  
  9. import android.view.View;  
  10. import android.widget.AdapterView;  
  11. import android.widget.AdapterView.OnItemClickListener;  
  12. import android.widget.ArrayAdapter;  
  13. import android.widget.ListView;  
  14. import android.widget.TextView;  
  15.   
  16. import org.apache.http.HttpResponse;  
  17. import org.apache.http.client.HttpClient;  
  18. import org.apache.http.client.methods.HttpPost;  
  19. import org.apache.http.impl.client.DefaultHttpClient;  
  20. import org.apache.http.util.EntityUtils;  
  21. import org.jsoup.Jsoup;  
  22. import org.jsoup.nodes.Document;  
  23. import org.jsoup.nodes.Element;  
  24. import org.jsoup.select.Elements;  
  25.   
  26. import java.util.ArrayList;  
  27. import java.util.List;  
  28.   
  29. @SuppressWarnings("unused")  
  30. public class MainActivity extends Activity {  
  31.     private TextView TV_HTMLCode;  
  32.     //此处搞一个TextView主要来显示News列表里面存储的内容,仅仅便于分析和理解  
  33.   
  34.     private String URL_EOL = "http://www.cnwust.com/newsList/1_1",  
  35.             TAG = "ATAG";  
  36.     //这是索要获取内容的网址  
  37.   
  38.     private List<News> NewsList;  
  39.     //自定义的News的类,用于存放索要获取新闻的目录、时间以及点击后显示的网址  
  40.   
  41.     private ListView LV_Result;  
  42.     private ArrayAdapter<String> LV_Adapter;  
  43.   
  44.     @Override  
  45.     protected void onCreate(Bundle savedInstanceState) {  
  46.         super.onCreate(savedInstanceState);  
  47.         setContentView(R.layout.activity_main);  
  48.         LV_Result = (ListView) findViewById(R.id.LV_Result);  
  49.         TV_HTMLCode = (TextView) findViewById(R.id.TV_HTMLCode);  
  50.         TV_HTMLCode.setMovementMethod(ScrollingMovementMethod.getInstance());  
  51.   
  52.         ConnectTask C1 = new ConnectTask();  
  53.         C1.execute();  
  54.   
  55.     }  
  56.   
  57.     @Override  
  58.     public boolean onCreateOptionsMenu(Menu menu) {  
  59.         getMenuInflater().inflate(R.menu.menu_main, menu);  
  60.         return true;  
  61.     }  
  62.   
  63.     public class ConnectTask extends AsyncTask<Void, Void, String> {  
  64.   
  65.         @Override  
  66.         protected String doInBackground(Void... params) {  
  67.             String result = ConnectEOL();  
  68.             return result;  
  69.         }  
  70.   
  71.         @Override  
  72.         protected void onPostExecute(String result) {  
  73.             // TV_HTMLCode.setText(result);  
  74.             NewsList = getNews(result);  
  75.             List<String> NewsTitles = new ArrayList<String>();  
  76.             for (News news : NewsList) {  
  77.                 TV_HTMLCode.append(news.getNewsTitle() + "\n");  
  78.                 TV_HTMLCode.append(news.getNewsTime() + "\n");  
  79.                 TV_HTMLCode.append(news.getNewsUrl() + "\n");  
  80.                 NewsTitles.add(news.getNewsTitle());  
  81.             }  
  82.         /* 为ListView添加适配器 */  
  83.   
  84.             LV_Adapter = new ArrayAdapter<String>(MainActivity.this,  
  85.                     android.R.layout.simple_list_item_1, NewsTitles);  
  86.             LV_Result.setAdapter(LV_Adapter);  
  87.   
  88.         /* 为ListView添加点击打开对应网页功能 */  
  89.             LV_Result.setOnItemClickListener(new OnItemClickListener() {  
  90.   
  91.                 @Override  
  92.                 public void onItemClick(AdapterView<?> arg0, View arg1,  
  93.                                         int arg2, long arg3) {  
  94.                     final Uri uri = Uri.parse(NewsList.get(arg2).getNewsUrl());  
  95.                     final Intent it = new Intent(Intent.ACTION_VIEW, uri);  
  96.                     startActivity(it);  
  97.                 }  
  98.   
  99.             });  
  100.             //此处为了方便就点击就直接调用设备默认浏览器打开网址  
  101.   
  102.             super.onPostExecute(result);  
  103.   
  104.   
  105.         }  
  106.   
  107.     }  
  108.   
  109.     /* 连接EOL的方法 返回整个网页经过截取之后的的源代码 */  
  110.     public String ConnectEOL() {  
  111.         String result = "";  
  112.         try {  
  113.             HttpClient httpclient = new DefaultHttpClient();  
  114.             HttpPost httppost = new HttpPost(URL_EOL);  
  115.             HttpResponse response = httpclient.execute(httppost);  
  116.             String Res = EntityUtils.toString(response.getEntity(), "UTF-8");  
  117.   
  118.             int st = Res.indexOf("<div id=\"result\">");  
  119.             int ed = Res.indexOf("<div id=\"pager\">");  
  120.             //这边算是最重要的部分,代码获取的便是这两段之间的部分。  
  121.   
  122.             String content = Res.substring(st, ed);  
  123.             st = content.indexOf("<ul>") + 4;  
  124.             ed = content.indexOf("</ul>");  
  125.             content = content.substring(st, ed);  
  126.             result = content;  
  127.         } catch (Exception e) {  
  128.             Log.d(TAG, e.toString());  
  129.         }  
  130.         return result;  
  131.     }  
  132.   
  133.     /* 对源代码进行解析截取的方法 返回一个News数组 */  
  134.     public List<News> getNews(String HTMLCode) {  
  135.         List<News> newsList = new ArrayList<News>();  
  136.         Document doc = Jsoup.parse(HTMLCode);  
  137.         Log.d(TAG, "解析html中");  
  138.         Elements lis = doc.getElementsByTag("li");  
  139.         Log.d(TAG, "lis的size " + lis.size());  
  140.         for (Element li : lis) {  
  141.             String newstime = li.getElementsByTag("span").text();  
  142.             String newstitle = li.getElementsByTag("a").text();  
  143.             String newsurl = li.getElementsByTag("a").attr("href");  
  144.             //这三段算是Jsoup从html中获取内容的关键了,很容易理解。  
  145.   
  146.             newsurl = newsurl.replace("/news""http://www.cnwust.com/news");  
  147.             //直接从html的代码中获取的URL是相对路径,此处使用replace改为绝对路径  
  148.   
  149.             Log.d(TAG, newstime);  
  150.             Log.d(TAG, newstitle);  
  151.             Log.d(TAG, newsurl);  
  152.   
  153.             News newst = new News();  
  154.             newst.setNewsTime(newstime);  
  155.             newst.setNewsTitle(newstitle);  
  156.             newst.setNewsUrl(newsurl);  
  157.             newsList.add(newst);  
  158.         }  
  159.         return newsList;  
  160.     }  
  161. }  


News:

[java]  view plain  copy
  1. public class News {  
  2.     private String newsTime;  
  3.     private String newsUrl;  
  4.     private String newsTitle;  
  5.   
  6.     public News() {  
  7.   
  8.     }  
  9.   
  10.     public News(String newsTitle, String newsTime, String newsUrl) {  
  11.         this.newsTime = newsTime;  
  12.         this.newsUrl = newsUrl;  
  13.         this.newsTitle = newsTitle;  
  14.     }  
  15.   
  16.     public String getNewsTime() {  
  17.         return newsTime;  
  18.     }  
  19.   
  20.     public void setNewsTime(String newsTime) {  
  21.         this.newsTime = newsTime;  
  22.     }  
  23.   
  24.     public String getNewsUrl() {  
  25.         return newsUrl;  
  26.     }  
  27.   
  28.     public void setNewsUrl(String newsUrl) {  
  29.         this.newsUrl = newsUrl;  
  30.     }  
  31.   
  32.     public String getNewsTitle() {  
  33.         return newsTitle;  
  34.     }  
  35.   
  36.     public void setNewsTitle(String newsTitle) {  
  37.         this.newsTitle = newsTitle;  
  38.     }  
  39.   
  40. }  


activity_main:

[java]  view plain  copy
  1. <RelativeLayout xmlns:android="http://schemas.android.com/apk/res/android"  
  2.     xmlns:tools="http://schemas.android.com/tools"  
  3.     android:layout_width="match_parent"  
  4.     android:layout_height="match_parent"  
  5.     android:paddingBottom="@dimen/activity_vertical_margin"  
  6.     android:paddingLeft="@dimen/activity_horizontal_margin"  
  7.     android:paddingRight="@dimen/activity_horizontal_margin"  
  8.     android:paddingTop="@dimen/activity_vertical_margin"  
  9.     tools:context=".NewsList" >  
  10.   
  11.     <TextView  
  12.         android:id="@+id/TV_HTMLCode"  
  13.         android:layout_width="match_parent"  
  14.         android:layout_height="150dp"  
  15.         android:layout_above="@+id/LV_Result"  
  16.         android:layout_alignParentTop="true"  
  17.         android:layout_centerHorizontal="true"  
  18.         android:scrollbars="vertical" />  
  19.   
  20.     <ListView  
  21.         android:id="@+id/LV_Result"  
  22.         android:layout_width="match_parent"  
  23.         android:layout_height="230dp"  
  24.         android:layout_alignLeft="@+id/TV_HTMLCode"  
  25.         android:layout_alignParentBottom="true" >  
  26.     </ListView>  
  27.   
  28. </RelativeLayout>  


此处对html代码的解析可能部分新手还是不太清楚,在此也是建议使用chrome浏览器,可以直接查看网站的源码。(有部分加密的网站看不到)下面看一下具体使用的截图:


1、首先先要打开到你要获取内容的网站





2、右击你要获取的内容,并选择  审查元素。




3、使用Jsoup解析html代码。





最后是附上源码下载地址:http://download.csdn.net/detail/double2hao/9155293



本人博客,android均为新手,闻过则喜,望各位前辈不吝指点批评。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值