爬虫
文章平均质量分 65
网络爬虫相关
IT小村
Java JavaScript Python
展开
-
[Java爬虫] 使用 Jsoup+HttpClient 爬取网站基本信息
一、前言说起爬虫,很多人第一反应是使用 Python 语言。但是 Java 爬虫方面也是相当成熟的,使用 Jsoup、HttpClient、HtmlUnit 就可以实现基本的需求。 【爬虫商业应用】 ①爬虫还是一个可以盈利的技术,很多网站的收集的内容的重要来源就是使用爬虫技术。 ②内容丰富后,可以大大提高个人网站的日流量,通过帮Google等打广告获取资金。 ③收集各...原创 2018-03-18 16:10:23 · 8052 阅读 · 0 评论 -
[Java爬虫] 使用 Jsoup + HttpClient 爬取网页图片
一、前言把一篇图文并茂的优秀文章全部爬取下来,就少不了 Java 爬虫里边的 图片爬取 技术了。很多人都用来爬取美女图片,但是笔者觉得这貌似有点俗。下面笔者使用它来爬取 CSDN 【今日推荐】文章附带的图片二、代码、依赖笔者对本代码经过多次修订,逻辑可以说是最简单的了,但性能上可能就算不上是最优的了,基本用法都注释在代码里边,该注意的地方都打 ✔ 了①目录(使用 S...原创 2018-03-20 08:48:52 · 5450 阅读 · 5 评论 -
[Java爬虫] 使用 HtmlUnit + Xpath 模拟点击、动态获取信息
一、前言 实现动态操作页面,首先我们进入360搜索的页面(百度页面、搜狗页面也行),输入要查询的关键词,这时候页面就会发生变化,我们要获取新的页面的信息。 此时的爬虫就不再是之前的一个页面的信息了: [Java爬虫] 使用 Xpath + HtmlUnit 爬取网页基本信息二、代码package com.cun.test;import java.util.Li...原创 2018-03-24 23:47:32 · 10030 阅读 · 7 评论 -
[Java爬虫] 使用 Xpath + HtmlUnit 爬取网页基本信息
一、前言使用 Jsoup + HttpClient (组合一)基本可以爬取很多我们需要的信息了,Xpath + HtmlUnit (组合二)的组合更是强大,无论是从选择上,还是从解析上,都可以胜任组合一的。下面列举一个简单的例子,主要展示了其主要的技术:①模拟浏览器、②使用代理IP、③取消CSS、JS解析、④Xpath的简单使用 Ⅰ、其他基础: ① 使用Xpath的一个例子:使用...原创 2018-03-21 16:00:53 · 7182 阅读 · 0 评论 -
[Python爬虫] 模拟浏览器、代理ip、开启日志、超时处理、异常处理、登录、下载图片
一、前言之前以 Java 为主要的开发语言,后台、爬虫 都是使用 Java 语言 近来,开发时逐步使用 Python 取代 Java,换种口味~ 本文根据之前 Java 爬虫涉及到方法为导向,以 Python 来实现, 包括 模拟浏览器、代理ip、开启日志、超时处理、异常处理、Get/Post请求 等 1、Java 爬虫常规操作: [Java爬虫] 使用 Jsoup+Ht...原创 2018-04-23 10:49:58 · 1526 阅读 · 0 评论 -
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息
一、前言之前使用原生的 Python 库去爬取网页信息,经常要使用正则表达式,笔者记性不是很好,经常经常忘记相关符号及其作用。 后来使用著名的 Scapy 框架去爬取信息,感觉太笨重了,特别是一个项目开发到一半,要引入爬虫功能,再使用 Scrapy,就不是那么友好了,其本身就是一个 Web Project。近来使用一个和之前 Java 爬虫特别简单好使的 Jsoup 框架极其类似的 Be...原创 2018-07-21 23:53:02 · 9925 阅读 · 0 评论