这是在学习Python的时候做的笔记,有些时间了,大概是按照一本挺实用的入门书籍学的,我学习编程的思路一般是掌握基础的变量类型,语法-分支结构 函数调用 类创建 结构体定义,记录一些简单的实例,剩下的就是需要用什么百度现学。
对我来说python的优势是,没有类型要求,不用声明,没有指针,万能数组,库很强大。
import requests
from bs4 import BeautifulSoup # 网页解析插件
import re # 匹配正则表达式
# region request基本用法
url = 'https://www.bilibili.com/'
r = requests.get(url)
print(r.status_code)
print(r.encoding)
print(r.cookies)
print(r.content) # 网页内容
# 带有参数的请求
payload = {'keyq': ' value1', 'keys': 'value2'}
r = requests.get(url, params=payload)
# 如果想获取来自服务器的原始套接字响应,可以取得 r.raw 。 不过需要在初始请求中设置 stream=True 。
r = requests.get('https://github.com/timeline.json', stream=True)
r.raw
r.raw.read(10)
# post 数据
payload = {'keyq': ' value1', 'keys': 'value2'}
r = requests.post("http://httpbin.org/post", data=payload)
print(r.text)
# 如果需要json格式数据 json.dumps(payload)
# 新建文件 file参数
url = 'http://httpbin.org/post'
files = {'file': open('test.txt', 'rb')}
r = requests.post(url, files=files)
print(r.text)
# cookies
url = 'http://httpbin.org/cookies'
cookies = dict(cookies_are='working')
r = requests.get(url, cookies=cookies)
print(r.text)
# 每次都是一个新的标签页 长久的登录联系需要session
s = requests.session()
s.get('http://httpbin.org/cookies/set/sessioncookie/123456789')
r = s.get("http://httpbin.org/cookies")
print(r.text)
# 代理 proxies = {"https": "http://41.118.132.69:4433" 参数传递同上
# endregion
# region bs网页解析 match匹配
# region bs解析匹配
html = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""
soup = BeautifulSoup(html, 'html.parser') # html解析方式 解析网页
soup.prettify() # 格式化打印网页文本 带有/n的
# 大功能1 获取指定标签内容
soup.a # 返回第一个标签
print(soup.p.attrs) # 返回指定标签中属性值得字典形式
print(soup.p['class']) #获取标签类名 同soup.p.get('class')
# 大功能2 获取标签里文字内容
print(soup.p.string)
# 获取大标签里的所有子标签 遍历
print(soup.head.contents)
for child in soup.body.children:
print(child)
for child in soup.descendants: #递归所有标签
print(child)
# 父节点
p = soup.p
print(p.parent.name)
content = soup.head.title.string # 递归所有父节点
for parent in content.parents:
print(parent.name)
# endregion
# region match匹配
# pattern正则式 string字符串 flags用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等
# re.I 匹配对大小写不敏感 re.S 匹配包括换行在内的所有字符 re.X 给予你更灵活的格式以便你将正则表达式写得更易于理解
# re.L 做本地化识别(locale-aware)匹配 re.M 多行匹配,影响 ^ 和 $ re.U 根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
url = 'https://www.bilibili.com/'
r = requests.get(url)
txt = r.text.encode(r.encoding).decode('utf-8') # 特定的解码方式
# txt.replace(old, new, count) 替换字符串
# txt.split('w') 分割为数组
# pattern1 = 'w{3}.bilibili.com/v/*.{3,7}/' # 匹配www.bilibili等
# pattern2 = '/video/av[0-9]{4,9}/ # 匹配网页'
# r’’来定义规则字符串 防止 这种情况
pattern = re.compile(r'www') # match 单次匹配 返回第一个结果
txt = "wwwdvbfsiwwwivodnsoiwww"
res = pattern.match(txt) # 开始匹配
print(res.group())
# re.findall(r’abc’, s) 匹配所有abc
# endregion
# endregion