数据抓取/爬虫
大橙子真帅
这个作者很懒,什么都没留下…
展开
-
Java抓取https网页数据,解决peer not authenticated异常
在抓取https开头的网页时报错:unable to find valid certification path to requested target或者是peer not authenticated异常原创 2014-11-18 17:37:21 · 5702 阅读 · 0 评论 -
Java抓取去哪网景点门票数据
比如想获得去哪网北京所有门票的信息,地址是http://piao.qunar.com/ticket/list.htm?keyword=%E5%8C%97%E4%BA%AC®ion=&from=mps_search_suggest,用谷歌浏览器访问,然后按F12,选择network,经过分析,门票的数据返回list.json,所以可以在搜索框中数据list.json,只查看list.json请原创 2015-01-22 13:48:55 · 1358 阅读 · 0 评论 -
jsoup抓取网页报错UnsupportedMimeTypeException
在抓腾讯新闻评论时出现如下异常org.jsoup.UnsupportedMimeTypeException: Unhandled content type. Must be text/*, application/xml, or application/xhtml+xml. Mimetype=application/javascript; charset=utf-8, url=http://.原创 2015-06-05 16:06:43 · 5445 阅读 · 1 评论 -
Java抓取新浪微博及评论
申请新浪微博授权1.下载新浪微博的SDK,并解压,导入到Eclipes中2.打开http://open.weibo.com/网站用自己的微博帐号登陆3.点击网页右上角的头像,选择编辑开发者信息。开发者类型选择公司,信息可随便填写,网站不会审核。4. 上网页上方导航栏处点击微连接,点击创建应用,选择网页应用5. 接下来填写,应用名称,应用地址,应用分类,随便写就可以了。6.在原创 2014-10-20 13:07:57 · 4472 阅读 · 2 评论 -
抓取腾讯新闻评论
package com.orange.qqnews;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.net.URL;import java.net.URLConnection;原创 2015-10-12 15:56:22 · 2018 阅读 · 0 评论 -
使用Java调用中科院分词NLPIR/ICTCLAS
官方地址:http://ictclas.nlpir.org/1. 下载NLPIR/ICTCLAS2015分词(最新版本)地址:http://ictclas.nlpir.org/newsdownloads?DocId=3892. 下载NLPIR-ICTCLAS2013-Win原创 2015-01-29 10:32:42 · 5620 阅读 · 12 评论 -
获取免费天气(Java抓取百度天气)
因为要用到天气信息,在网上找了免费的api,不是有调用限制就是返回的结果不满意,看了百度的比较合适,决定用爬虫抓下来在百度上搜索"北京天气",将浏览器的地址复制,作为请求地址添加jar包 <!-- jsoup --> <dependency> <groupId>org.jsoup</groupId> <artifactId>...原创 2018-06-05 13:55:38 · 5903 阅读 · 1 评论