基本操作:获取+解析
目录
获取
Requests模块获取静态网页
import requests
print(requests.get('这里填网址').tex)
对于含有中文的网站,需要重新编解码,否则会呈现乱码
print(requests.get('这里填网址').text.encode('网页源代码编码方式').decode('utf-8'))
查看网页源代码的编码方式
print(requests.get('这里填网址').encoding)
Selenium模块获取动态网页源代码
from selenium import webdriver
browser=webdriver.Chrome()
browser.get('这里填网址')
data=browser.page_source
print(data)
该方法会弹出网页
不弹出的写法
chrome_options=webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
browser=webdriver.Chrome(options=chrome_options)
browser.get('http://www.51job.com')
Selenium模块模拟鼠标和键盘操作
from selenium.webdriver.common.by import By
browser.find_element(By.XPATH,'XPath').click()
获取XPath方法
在需要操作的网页元素右键-检查,定位源代码右键-复制-复制XPath
解析
import re
url='这里填网址'
response=requests.get(url)
result=response.text
result=result.encode('网页源代码编码方式').decode('utf-8')
sourse='正则表达式'
tardata=re.findall(sourse,result)
print(tardata)