怎么测试python爬虫数据_python我的一个爬虫和测试

一、

使用request库的get()函数访问360搜索网页20次并且打印返回状态,text内容,计算text()属性和content()属性所返回网页内容的长度。

对360搜索主页进行爬虫:

利用request库的get函数访问google 20次,输入代码为:

import requests

wan="https://www.so.com/"

def pac(wan):

print("第",i+1,"次访问")

r=requests.get(wan,timeout=30)

r.raise_for_status()

print("text编码方式为",r.encoding)

print("网络状态码为:",r.status_code)

print("text属性:",r.text)

print("content属性:",r.content)

return r.text

for i in range(20):

print(pac(wan))

由于结果太长,这里将代码改为打印text属性和content属性的长度后展示最后一次访问的结果,代码改动:

print("text属性长度:",len(r.text))

print("content属性长度:",len(r.content))

第 20 次访问

text编码方式为 ISO-8859-1

网络状态码为: 200

text属性长度: 5294

content属性长度: 5294

360æç´¢

click.gif?pro=so&pid=home&mod=noscriptpage

二、

这是一个简单的html页面,请保持为字符串,完成后面的计算要求。

a.打印head标签内容和你的学号后两位

b 获取body标签内容

c 获取id为first的标签对象

d 获取并打印html页面中的中文字符

html为:

1

2

3

4

5

6

7

8

9

菜鸟教程(runoob.com)

10

11

12

13

14

15 我的第一个标题学号25

16

17

我的第一个段落。

18

19

20

21

22

23

24

25

row 1, cell 1

26

27

row 1, cell 2

28

29

30

31

32

33

row 2, cell 1

34

35

row 2, cell 2

36

37

38

39

40

41

菜鸟教程运行结果:

71eed99c0c51b74da3b5599ebbdf67bd.png

相关计算代码:

from bs4 import BeautifulSoup

import re

soup=BeautifulSoup('''

菜鸟教程(runoob.com)

我的第一标题

我的第一个段落。

row 1, cell 1row 1, cell 2
row 2, cell 1row 2, cell 2
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值