博客专栏  >  互联网   >  数据采集

数据采集

详细记录了用java采集网站数据的实例和运用

关注
7 已关注
12篇博文
  • java下载网络文件

    本篇记录下载网络文件的情况 比如说 有一个视频  我现在有它的下载链接  http://www.learnEnglish.com/lesson.avi 那么实现下载的代码如下: 我要把 视频下载到...

    2014-12-15 19:01
    1730
  • java下载html页面---把网页内容保存成本地html

    我们在前面讲到httpclient抓取网页内容的时候 通常都是获取到页面的源代码content存入数据库。 详见下文: HTTPClient模块的HttpGet和HttpPost httpclien...

    2015-03-03 11:50
    2051
  • httpclient常用基本抓取类

    package com.reallyinfo.athena.crawlMethodManager; import java.io.IOException; import java.io.Input...

    2014-09-17 11:53
    1890
  • java处理数据文本时间小函数积累

    // 查找某个字符在字符串中出现的次数 public int Charcount(String string, String str) { int ii = 0; if (string == ...

    2014-01-03 18:13
    1206
  • httpclient模拟登录

    我们在用java的httpclient爬取网站数据时

    2014-07-08 18:20
    1576
  • httpclient使用代理ip

    在浏览一些网站的时候由于各种原因,无法进行访问。  频繁访问也可能 这时我们需要通过IE,FireFox进行Http的代理设置,  当然httpClient也为我们提供这样的设置

    2014-07-08 18:07
    8107
  • java httpclient访问某些网页报403错误

    应该是某些网站对这种“网络收集器”类的东西进行了过滤,你设置请求头伪装成浏览器应该可以的  就是需要setheader  代码如下:  httpclient 模拟浏览器动作需注意...

    2014-03-19 15:38
    2118
  • java-jsoup自适应爬取网页表格的内容

    在爬取数据的过程中,我们有时候需要爬取页面中的表格 但表格的样式千变万化  下面的类和方法可以解析大部分的表格  得到 属性名 和 对应值.   需要的包链接:   http://downl...

    2014-01-24 15:32
    3900
  • java获取页面cookie的两种方式

    方式一: jsoup Connection conn = Jsoup.connect("http://www.17sct.com/city.php?name=CHANGZHOU"); co...

    2014-01-03 10:56
    6015
  • HTTPClient模块的HttpGet和HttpPost

    Android SDK集成了Apache HttpClient模块。要注意的是,这里的Apache HttpClient模块是HttpClient 4.0(org.apache.http.*),而不是...

    2013-12-14 16:44
    13053
  • java-jsoup解析html页面的内容

    前面一篇文章讲述了 怎么用httpclient发送页面请求,下面要做的就是 爬取请求到的页面的 内容了。 jsoup可以帮助我们很好的解析页面内容。具体例子我们在上文的框架里做示范。 上文链接:htt...

    2013-08-19 15:19
    13410
  • java-httpclient通过title实现从baidu爬取相关网页链接

    思路是: 1.构造百度搜索的链接 2.初始化一个httpclient对象 3.用httpclient发送请求,返回页面content   (要判断页面编码) 4.提取页面上的链接(可用正则...

    2013-08-16 17:43
    4860
img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部