Java爬虫入门学习

最新推荐文章于 2024-06-26 14:44:53 发布

Jagger_Lin

最新推荐文章于 2024-06-26 14:44:53 发布

阅读量519

点赞数

分类专栏： Java学习

本文链接：https://blog.csdn.net/Jagger_Lin/article/details/109175856

版权

Java学习专栏收录该内容

29 篇文章 0 订阅

订阅专栏

爬虫入门学习（Updating）

文章目录

爬虫入门学习（Updating）
爬虫简单了解
一、准备工作
二、案例（AcFun）
- 1.引入库
- 2.读入数据
三、总结

爬虫简单了解

网络爬虫（Web crawler），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本

一、准备工作

一、环境准备

环境搭建

JDK1.8
Eclipse 2018 64位
Eclipse自带的Maven
pom.xml中加入依赖httpclient、slf4j-log4j12
本地仓库

二、F12开发者工具相关知识

F12-network-headers

例：使用chrome浏览器自带的开发者工具查看http头的方法
1）F12打开chrome自带的调试工具;
2）选择network标签, 刷新网页或网页上操作(在打开调试工具的情况下刷新);
3）刷新后在左边找到该网页url,点击后右边选择headers,就可以看到当前网页的http头了
General

Request Method:HTTP方法
Status Code:响应状态码
200(状态码) OK
301 -资源（网页等）被永久转移到其它URL
404 - 请求的资源（网页等）不存在
500 - 内部服务器错误

HTTP request header )

Accept:客户端能接收的资源类型
Accept-Encoding:gzip, deflate(客户端能接收的压缩数据的类型)
Accept-Language:en-US,en;q=0.8 客户端接收的语言类型
Cache-Control:no-cache服务端禁止客户端缓存页面数据
Connection:keep-alive 维护客户端和服务端的连接关系
Cookie:客户端暂存服务端的信息
Host:www.jnshu.com 连接的目标主机和端口号
Pragma:no-cache 服务端禁止客户端缓存页面数据
Referer:http://www.jnshu.com/daily/15052 来于哪里
User-Agent: 客户端版本号的名字

Response Headers

Date 服务器端时间
Server 服务器端的服务器软件 Apache/2.2.6
Etag 文件标识符
Content-Encoding传送启用了GZIP压缩 gzip
Content-Length 内容长度
Content-Type 内容类型

三、思路

案例实现

1.模拟登陆（无需验证码）
2.爬取数据
3.解析数据
4.遍历去重
5.保存数据

二、案例（AcFun）

1.引入库

代码如下（示例）：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.读入数据

代码如下（示例）：

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

该处使用的url网络请求的数据。

三、总结

提示：这里对文章进行总结

Jagger_Lin

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Java爬虫入门学习

爬虫学习提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录爬虫学习爬虫简单了解一、准备二、使用步骤1.引入库2.读入数据总结爬虫简单了解网络爬虫（Web crawler），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本一、准备一、F12开发者工具-network-headers例：使用chrome浏览器自带的开发者工具查看http头的方法1）F12打开chrome自带的调试工具
复制链接

扫一扫