网络爬虫学习记录

一、计算机网络基础

常用的爬虫模块

urllib包含的模块

  • urllib.request: 打开和读取urls
  • urllib.error: 包含urllib.request产生的常见的错误,使用try捕捉
  • urllib.parse: 包含解析url的方法
  • urllib.robotparse: 解析robots.txt文件

实验步骤

步骤1:在Pyhon中创建一个list,存储以下个人信息(姓名、年龄、成绩):[小王、40、50],[小贾、50、23]

## python创建list一共有四种方式
c = list()
c.append(['小王',40,50])
c.append(['小贾',50,23])

步骤2:将步骤1的数据存储为json格式,并进行读取

# 注意有中文的读取,ensure_ascii=False
import json
cJson = json.dumps(c,ensure_ascii=False)

步骤3:将步骤1的数据存储为xml格式,并进行读取

xml格式是可扩展标记语言,它很像我们常见的HTML超文本标记语言,我们爬取到的网页就是这种格式的,重点应放在使用python对xml格式的文件进行处理

1. import xml.dom.minidom


步骤4:思考从打开coggle.club到网页展示,有什么步骤?

一个网页的过程:浏览器向服务器发送get请求,服务器根据请求返回所需要的东西给客户端

爬虫开始

1.首先,导入我们所需的库:

from bs4 import BeautifulSoup
import requests

2.接着我们用url确定我们的目标网址:

url=

3.接下来,我们开始利用requests.get()来获取网页并利用bs4解析网页:

response=requests.get(url)
soup=BeautifulSoup(response.text,'lxml')

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值