暑假学习 Python爬虫基础(1)

本文记录了作者暑假期间学习Python爬虫的开始,目标是掌握基础爬虫的实现。首先介绍了环境准备,包括Fiddler的配置,特别是设置允许远程连接和苹果手机的描述文件安装。接着提到了Python中重要的urllib库及其四个模块:request、error、parse和robotparse,并通过一个模拟登录的简单示例介绍了urlopen方法。最后,预告将利用Python爬虫在B站爬取相关数据。
摘要由CSDN通过智能技术生成

这个暑假发生的事情太多了,感觉自己浑浑噩噩的浪费了许多时间,那么就要用后面的时间补回来

 

在暑假阶段的爬虫学习目标就是能够独立的实现一些基本简单的爬虫

下面来进行一下一些环境的准备,因为我以前学过一些简单的,但是有因为没有恒心就放弃了

 

Fiddler进行手机抓包

首先要在配置好fiddler的环境,就先在电脑上实验一下啊

在配置环境的过程中,设置好fiddler允许远程连接之后要重启一次fiddler手机才可以访问

然后就是苹果手机的描述文件要在设置里面安装一次就行了

接下来的部分就没有什么问题了

 

下面就是一些基础知识了

一个比较重要的库就是urllib   他有四个模块  

request  它是用来发起请求的

error  进行异常处理的

parse 解析url地址的

robotparse 解析网站的robot.txt

 

urllib中的urlopen方法

urllib(url,data=None,[timeout,]*) --请求链接,请求携带参数(比如post提交的数据,)请求超时时间

下面来进行一下简单的应用,来模拟一下登录一个山寨网站

值得注意的点就是使用https的话可以使用ssl未经验证上下文

context = ssl._create_unverified_context

数据封装转换成byte

data = bytes(parse.urlencode(dict),'utf-8')

 

此次的项目是在b站上爬取你想要的相关数据

f
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值