import requests
from fake_useragent import UserAgent
import re
try:
url = "https://sports.qq.com/"
headers = {
'User-Agent':UserAgent().chrome
}
r = requests.get(url,headers = headers)
r.encoding = r.apparent_encoding
''' 正则表达式的常用操作符
操作符 说明 实例
. 表示单个字符
[] 字符集,对单个字符给出取值范围 [a~z]表示a到z单个字符
[^] 非字符集,对单个字符给出排除范围 [^abc]表示非a,b,c的单个字符
* 前一个字符的零次或无数次 a*表示aaaaaa
+ 前一个字符的一次或无数次扩展 ab+表示abbbb
? 前一个字符的零次或一次扩展 Abc?表示abcc,ab
| 左右表达式的任意一个 ab|cd表示ab或cd
{m} 扩展前一个字符m次 Ab{2}c表示Abbc
{m,n} 扩展前一个字符m至n次 ab{1,2}c表示为abc或abbc
^ 匹配字符串开头 ^abc表示abc且在一个字符串的开头
$ 匹配字符串结尾 Abc$表示abc且在一个字符串的结尾
() 分组标记,内部只能使用 | (abc|fd)
\d 数字,等价于[0-9]
\w 单词字符,等价于[A-Za-z0-9_] '''
regx = f'<li><a target="_blank" href=".+?" class=".*?">(.+?)</a></li>'
datas = re.findall(regx,r.text)
for i in datas:
print(i)
except:
print(" ")