Python webbrowser,requests,bs4 模块学习笔记(一)

最新推荐文章于 2023-01-16 17:07:35 发布
__TRIX
最新推荐文章于 2023-01-16 17:07:35 发布
阅读量217
点赞数
分类专栏： PythonProcessProgram 文章标签： python 爬虫 html
本文链接：https://blog.csdn.net/Tonymot/article/details/120183682
版权
PythonProcessProgram 专栏收录该内容
33 篇文章 1 订阅
订阅专栏
# -*- coding: utf-8 -*-
# Version: Python 3.9.5
# Author: TRIX
# Date: 2021-09-07 11:33:01
# Use:
from logging import basicConfig,DEBUG,debug,CRITICAL,disable # Import debugging module
#disable(CRITICAL)# Remove # when the program is completed
basicConfig(level=DEBUG, format='%(levelname)s: %(message)s. [%(lineno)d]%(filename)s <%(asctime)s>',filename='debug.log',filemode='w')# Set debugging mode. Replace print() with debug()

u'str'#unicode字符
r'str'#非转义字符
b'str'#二进制字符

import webbrowser
webbrowser.open('url')#打开url网站

import requests
rget = requests.get('url')#对url发送http get 请求
rpost = requests.post('url', data = {'key':'value'})#对url发送http post 请求
rput = requests.put('url', data = {'key':'value'})#对url发送http put 请求
rdelete = requests.delete('url')#对url发送http delete 请求
rhead = requests.head('url')#对url发送http head 请求
roptions = requests.options('url')#对url发送http options 请求
paradict = {'key1': 'value1', 'key2': ['value2', 'value3']}
rget=requests.get('https://httpbin.org/get',params=paradict)#附加paradict参数发送请求 rget.url==https://httpbin.org/get?key1=value1&key2=value2&key2=value3
rget.url#url
rget.content#网页html内容 bytes字节码
rget.encoding#网页编码格式
rget.apparent_encoding#网页文本编码 先使用这句获取网页编码格式
rget.text#网页html内容
rget.status_code#网页状态码
#状态码 200 请求成功
#状态码 404 没有发现文件、查询或URl
#状态码 405 用户在Request-Line字段定义的方法不允许
try:rget.raise_for_status()#如果请求失败 引起异常 如果请求成功 就什么都不做
except Exception as e:print(e)
with open('web_text.txt','wb') as a:
	for n in rget.iter_content(100000):
		a.write()#向web_text.txt以wb模式写入网页内容 wb 二进制写入 能保存文本的unicode编码

import bs4#处理html 需要安装 pip install beautifulsoup4
html=bs4.BeautifulSoup(rget.text,'lxml')#处理html
html.prettify()#将html用易读的方式打印
html.title#<title>str</title>
html.head#<head>str</head>
url_tag=html.a#<a href=url>url_name</a>
url_tag.parent#父tag
parents_gener=url_tag.parents#该tag的所有父tag 返回生成器
url_tag.parent.name#父tag name
html.p#<p>paragraph</p>
html.p.next_sibling#和该tag同一级的下一个tag
html.p.prev_sibling#和该tag同一级的上一个tag
next_siblings_gener=html.p.next_siblings#和该tag同一级的下面所有tag 返回生成器
prev_siblings_gener=html.p.prev_siblings#和该tag同一级的上面所有tag 返回生成器
html.name#[document]
html.title.name#tag name
html.a.next_element#下一个tag 不分级
html.a.previous_element#上一个tag 不分级
next_elements_gener=html.p.next_elements#和该tag的下面所有tag 不分级 返回生成器
prev_elements_gener=html.p.prev_elements#和该tag的上面所有tag 不分级 返回生成器
html.a.attrs#属性字典 key="value"
html.attrs#属性字典 key="value"
html.a.string#tag内的单个文字
html.a.text#tag内的所有文字
html.body.string#tag内的单个文字
if isinstance(html.a.string,bs4.element.Comment):print(html.a.string)#如果是注释tag 就打印 有注释的tag会造成干扰
tags_list=html.head.contents#将内容以外层tag分别为元素 返回列表
tags_gener=html.head.children#将内容以外层tag分别为元素 返回生成器
tags_gener=html.descendants#将内容的所有tag分别为元素 返回生成器
text_strings_gener=html.strings#所有字符串分别为元素 返回生成器
text_strings_gener=html.stripped_strings#所有字符串去除空白字符后分别为元素 返回生成器

b_list=html.find_all('b')#搜当前tag的所有子tag 符合<b>的 返回 组成列表
b_list=html.find_all(re.compile(pattern))#搜当前tag的所有子tag 符合pattern的 返回 组成列表
b_list=html.find_all(list,recursive=False)#搜当前tag的所有子tag 符合list中任一元素的的 返回 组成列表 非递归 只搜tag同级 不搜子级
b_list=html.find_all(True,limit=5)#搜索当前tag的所有子tag 匹配任何值 但不会返回string  返回 组成列表 只返回5个tag
def cust_func(tag):
	return tag.has_attr('class') and not tag.has_attr('id')#如果tag含class 不含id属性 返回True 等效只找这一类型的tag
cust_list=html.find_all(cust_func,text='str')
cust_list=html.find_all(id='name')#只返回 id='name' 且string为str 的tag
cust_list=html.find_all(href=re.compile(pattern))#只返回 href=re.compile(pattern) 的tag
cust_list=html.find_all(href=re.compile(pattern1),class_=re.compile(pattern2))#只返回 href=re.compile(pattern1),class=re.compile(pattern2) 的tag
html.find()#返回一个结果 其他和find_all()相同
html.find_parents()#搜索当前tag的所有父级 其他和find_all()相同
html.find_parent()#搜索当前tag的所有父级 返回一个结果 其他和find()相同
html.find_next_siblings()#搜索当前tag的所有同级下面tag 其他和find_all()相同
html.find_next_sibling()#搜索当前tag的所有同级下面tag 返回一个结果 其他和find()相同
html.find_previous_siblings()#搜索当前tag的所有同级上面tag 其他和find_all()相同
html.find_previous_sibling()#搜索当前tag的所有同级上面tag 返回一个结果 其他和find()相同
html.find_all_next()#搜索当前tag的所有下面tag 其他和find_all()相同
html.find_next()#搜索当前tag的所有下面tag 返回一个结果 其他和find()相同
html.find_all_previous()#搜索当前tag的所有上面tag 其他和find_all()相同
html.find_previous()#搜索当前tag的所有上面tag 返回一个结果 其他和find()相同

html.select('div')#搜索<div></div> 的tag 返回list
html.select('.classname')#搜索class="classname" 的tag 返回list
html.select('#idname')#搜索 id="idname" 的tag 返回list
html.select('p #idname')#搜索 <p></p>中 所有 id="idname"的tag 返回list
html.select('head > title')#搜索 <head></head> 中 所有 <title></title> 的tag 返回list
html.select('a[class="classname"]')#搜索 <a></a> 中 所有 class="classname" 的tag 返回list
url_tags_list=html.select('a[href="url"]')#搜索 <a></a> 中 所有 href="url" 的tag 返回list
for url_tag in url_tags_list:url_tag.get_text()#返回string内容
for url_tag in url_tags_list:url_tag.get('href')#返回url内容