python爬虫入门（简单爬虫案例）

最新推荐文章于 2024-06-19 17:27:45 发布

我啊困的唉

最新推荐文章于 2024-06-19 17:27:45 发布

阅读量2.9k

点赞数 5

分类专栏： python 文章标签： python 爬虫正则表达式

本文链接：https://blog.csdn.net/ahc176/article/details/120236968

版权

python 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

一、工具：

pycharm，python3.7

二、爬虫的过程：

1.发起请求：通过HTTP库向目标站点发起请求，也就是发送一个Request，请求可以包含额外的header等信息，等待服务器响应

2.获取响应内容：如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能是HTML,Json字符串，二进制数据（图片或者视频）等类型

3.解析内容：得到的内容可能是HTML,可以用正则表达式，页面解析库进行解析，可能是Json,可以直接转换为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理

4.保存数据：保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件

三、简单案例：

import requests
req=requests.get('https://www.csdn.net') #请求CSDN首页
print(req) #打印请求结果的状态码
print(req.content) #打印请求到的网页源码,content返回的是bytes型也就是二进制的数据。
print(req.text) #text返回的是Unicode型的数据。

四、解析源码并保存数据：

from bs4 import BeautifulSoup
import requests
req=requests.get('https://www.csdn.net') #请求CSDN首页

bsobj=BeautifulSoup(req.content,'lxml') #将网页源码构造成BeautifulSoup对象，方便操作
a_list=bsobj.find_all('a') #获取网页中的所有a标签对象
text='' # 创建一个空字符串
for a in a_list:
    href=a.get('href') #获取a标签对象的href属性，即这个对象指向的链接地址
    text+=href+'\n' #加入到字符串中，并换行
with open('url.txt','w') as f: #在当前路径下，以写的方式打开一个名为'url.txt'，如果不存在则创建
    f.write(text) #将text里的数据写入到文本中
    print("完成")

结果：

我啊困的唉

关注

5
点赞
踩
38

收藏

觉得还不错? 一键收藏
打赏
0
评论
python爬虫入门（简单爬虫案例）

一、工具：pycharm，python3.7二、爬虫的过程：1.发起请求：通过HTTP库向目标站点发起请求，也就是发送一个Request，请求可以包含额外的header等信息，等待服务器响应2.获取响应内容：如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能是HTML,Json字符串，二进制数据（图片或者视频）等类型3.解析内容：得到的内容可能是HTML,可以用正则表达式，页面解析库进行解析，可能是Json,可以直接转换为Json对象
复制链接

扫一扫