Java爬虫入门学习

爬虫入门学习(Updating)



爬虫简单了解

网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本

一、准备工作

一、环境准备

环境搭建

  • JDK1.8
  • Eclipse 2018 64位
  • Eclipse自带的Maven
    pom.xml中加入依赖httpclient、slf4j-log4j12
  • 本地仓库

二、F12开发者工具相关知识

F12-network-headers

  1. 例:使用chrome浏览器自带的开发者工具查看http头的方法
    1)F12打开chrome自带的调试工具;
    2)选择network标签, 刷新网页或网页上操作(在打开调试工具的情况下刷新);
    3)刷新后在左边找到该网页url,点击 后右边选择headers,就可以看到当前网页的http头了

  2. General

Request Method:HTTP方法
Status Code:响应状态码
200(状态码) OK
301 -资源(网页等)被永久转移到其它URL
404 - 请求的资源(网页等)不存在
500 - 内部服务器错误

  1. HTTP request header )

Accept:客户端能接收的资源类型
Accept-Encoding:gzip, deflate(客户端能接收的压缩数据的类型)
Accept-Language:en-US,en;q=0.8 客户端接收的语言类型
Cache-Control:no-cache服务端禁止客户端缓存页面数据
Connection:keep-alive 维护客户端和服务端的连接关系
Cookie:客户端暂存服务端的信息
Host:www.jnshu.com 连接的目标主机和端口号
Pragma:no-cache 服务端禁止客户端缓存页面数据
Referer:http://www.jnshu.com/daily/15052 来于哪里
User-Agent: 客户端版本号的名字

  1. Response Headers

Date 服务器端时间
Server 服务器端的服务器软件 Apache/2.2.6
Etag 文件标识符
Content-Encoding传送启用了GZIP压缩 gzip
Content-Length 内容长度
Content-Type 内容类型

三、思路

案例实现

1.模拟登陆(无需验证码)
2.爬取数据
3.解析数据
4.遍历去重
5.保存数据

二、案例(AcFun)

1.引入库

代码如下(示例):

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.读入数据

代码如下(示例):

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

该处使用的url网络请求的数据。


三、 总结

提示:这里对文章进行总结

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值