python3读取网页内容_Python3爬虫04（其他例子，如处理获取网页的内容）

最新推荐文章于 2022-11-14 18:05:45 发布

段会腾段会腾哥哥

最新推荐文章于 2022-11-14 18:05:45 发布

阅读量110

点赞数

文章标签： python3读取网页内容

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36342356/article/details/111900906

版权

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import os

import re

import requests

from bs4 import NavigableString

from bs4 import BeautifulSoup

res=requests.get("https://www.qiushibaike.com/")

qiushi=res.content

soup=BeautifulSoup(qiushi,"html.parser")

duanzis=soup.find_all(class_="content")

for i in duanzis:

duanzi=i.span.contents[0]

# duanzi=i.span.string

print(duanzi)

# print(i.span.string)

res=requests.get("http://699pic.com/sousuo-218808-13-1-0-0-0.html")

image=res.content

soup=BeautifulSoup(image,"html.parser")

images=soup.find_all(class_="lazy")

for i in images:

original=i["data-original"]

title=i["title"]

# print(title)

# print(original)

# print("")

try:

with open(os.getcwd()+"\\jpg\\"+title+'.jpg','wb') as file:

file.write(requests.get(original).content)

except:

pass

r = requests.get("http://699pic.com/sousuo-218808-13-1.html")

fengjing = r.content

soup = BeautifulSoup(fengjing, "html.parser")

# 找出所有的标签

images = soup.find_all(class_="lazy")

# print images # 返回list对象

for i in images:

jpg_rl = i["data-original"] # 获取url地址

title = i["title"] # 返回title名称

print(title)

print(jpg_rl)

print("")

r = requests.get("https://www.qiushibaike.com/")

r=requests.get("http://www.cnblogs.com/nicetime/")

blog=r.content

soup=BeautifulSoup(blog,"html.parser")

soup=BeautifulSoup(blog,features="lxml")

print(soup.contents[0].contents)

tag=soup.find('div')

tag=soup.find(class_="menu-bar menu clearfix")

tag=soup.find(id="menu")

print(list(tag))

tag01=soup.find(class_="c_b_p_desc")

print(len(list(tag01.contents)))

print(len(list(tag01.children)))

print(len(list(tag01.descendants)))

print(tag01.contents)

print(tag01.children)

for i in tag01.children:

print(i)

print(len(tag01.contents))

for i in tag01:

print(i)

print(tag01.contents[0].string)

print(tag01.contents[1])

print(tag01.contents[1].string)

url = "http://www.dygod.net/html/tv/oumeitv/109673.html"

s = requests.get(url)

print(s.text.encode("iso-8859-1").decode('gbk'))

res = re.findall('href="(.*?)">ftp',s.text)

for resi in res:

a=resi.encode("iso-8859-1").decode('gbk')

print(a)

段会腾段会腾哥哥

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。