java 有没有类似于 requests 爬虫_python爬虫入门笔记

9065d4f0bb21e4d10906a18b94613efa.png

背景

由于这两天在家大扫除贴对联准备过年,所以刷题的机会少了许多,我也就放松放松一下,不写题解了,哈哈。由于python语言越来越火热,虽然我是走Java后台开发,但是也被python给吸引住了。所以这几天我学习了一下python的爬虫入门,记录一下我学习python爬虫的经历吧。

基础准备

  • 我觉得要学习一个新的东西的时候,兴趣是最重要的一个因素。因为我本人很喜欢看小说,然后又是技术控,所以想试一下用python爬虫爬取我喜欢的小说(刺激~~~)
  • 有一门面向对象的编程语言基础,例如我熟悉Java,然后入手python就觉得还可以(有点自恋~~~)
  • 装python3.x的环境(因为我是用python3.8),觉得麻烦可以直接装anaconda也行。我是因为毕业设计做深度学习都有安装,不过我还是用自己安装的python3.8来做爬虫。

开发爬虫的步骤

  • 目标数据(网站、页面)
  • 分析数据加载流程(分析目标数据所对应的url)
  • 下载数据到本地
  • 清洗,处理数据
  • 数据持久化

因为我喜欢看伏天氏,所以爬取的是笔趣阁里面的伏天氏小说,以此来记录python爬虫的入门。

爬取数据

  1. 需要导入requests库,没有这个库可以直接在win+r的cmd里面输入pip install requests下载即可
  2. 需要学习正则表达式来帮助我们爬取想要的数据

代码(加注释)

#!/usr/bin/env python 

运行部分截图

6e46643cc82dc1f4ddfad1125aebe5e2.png

PS:由于写代码的时候是一边写一边测试,所以中间挺多过程你们可能看着有点懵,可以尝试着自己写一下来熟悉一下整个过程。这个应该就是最简单的一个python爬虫入门了吧,因为喜欢看小说,刚好现在在看《伏天氏》,就试着爬取一下数据,结果还不错,就是过程可能有点坎坷,毕竟本身我就是学Java出身,python也是半吊子,要不是刚好毕业设计做深度学习,我估计连python的语法都不会吧(哈哈),觉得对你有点帮助的点点赞,谢谢你们的支持了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Java的世界里,HttpClient 是一个功能强大的Http请求库,然而接口非常复杂,设计上遵从正交性,简单的请求也需要写比较多的代码,更不要说隐藏在各种细节里面的高级用法了。Requests,  是一个模仿python requests 模块来设计的Http lib,拥有简单而灵活的API,在容易使用的同时,又能够满足各种高级定制的使用,可是说是当前最好用的Java Http Client Lib。 简单的请求示例:String url = ...; Response resp = Requests.get(url).text(); // post 和其他方法 resp = Requests.post(url).text(); resp = Requests.head(url).text(); //读取Http Response  int statusCode = resp.getStatusCode(); Headers headers = resp.getHeaders(); Cookies cookies = resp.getCookies(); String body = resp.getBody(); //response 返回其他类型 resp = Requests.get(url).text("UTF-8"); // get response as bytes Response resp1 = Requests.get(url).bytes(); // save response as file  Response resp2 = Requests.get(url).file("/path/to/save/file"); // url 参数: Map map = new HashMap(); map.put("k1", "v1"); map.put("k2", "v2"); Response resp = Requests.get(url).param("key1", "value1").params(map)         //.params(new Parameter(...), new Parameter(...))         .text(); // 请求头 Response resp = Requests.get(url).header("key1", "value1").headers(map)         //.headers(new Header(...), new Header(...))         .text(); // 添加Cookie: Map cookies = new HashMap(); Response resp = Requests.get(url).cookie("key1", "value1").cookies(map)         //.cookies(new Cookie(...), new Cookie(...))         .text(); //  设置 userAgent Response resp = Requests.get(url).userAgent(userAgent).text(); // 增加请求数据(post, put, patch方法) // send form-encoded data. x-www-form-urlencoded header will be send automatically Response resp = Requests.post(url).data(map).text(); // send string data String str = ...; resp = Requests.post(url).data(str, "UTF-8").text(); // send from inputStream InputStream in = ... resp = Requests.post(url).data(in).text(); // multipart 请求, 用于文件上传: Response resp = Requests.post(url).data(map).multiPart("ufile", "/path/to/file")         .multiPart(..., ...).text();请求设置://禁止自动重定向

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值