网络爬虫学习记录

行路者-慢慢来

已于 2022-03-03 14:50:01 修改

阅读量508

点赞数

分类专栏：数据分析文章标签：爬虫

于 2022-03-01 13:40:02 首次发布

本文链接：https://blog.csdn.net/qq_28069577/article/details/123203857

版权

16 篇文章 0 订阅

订阅专栏

步骤1：在Pyhon中创建一个list，存储以下个人信息（姓名、年龄、成绩）：[小王、40、50]，[小贾、50、23]

## python创建list一共有四种方式
c = list()
c.append(['小王',40,50])
c.append(['小贾',50,23])

步骤2：将步骤1的数据存储为json格式，并进行读取

# 注意有中文的读取,ensure_ascii=False
import json
cJson = json.dumps(c,ensure_ascii=False)

步骤3：将步骤1的数据存储为xml格式，并进行读取

xml格式是可扩展标记语言，它很像我们常见的HTML超文本标记语言，我们爬取到的网页就是这种格式的，重点应放在使用python对xml格式的文件进行处理

1. import xml.dom.minidom

步骤4：思考从打开coggle.club到网页展示，有什么步骤？

一个网页的过程：浏览器向服务器发送get请求，服务器根据请求返回所需要的东西给客户端

1.首先，导入我们所需的库：

from bs4 import BeautifulSoup
import requests

2.接着我们用url确定我们的目标网址：

url=

3.接下来，我们开始利用requests.get（）来获取网页并利用bs4解析网页：

response=requests.get(url)
soup=BeautifulSoup(response.text,'lxml')

关注

专栏目录