我对Python和刮痧很在行。我了解基本原理,但就是无法克服这个问题。在
我想从www.tweakers.net网站在请求和beautifullsoup库中使用python。但是,当我抓取时,我会不断地抓取cookie语句,而不是实际的站点内容。希望有人能帮我做代码。我在其他网站上也遇到过类似的问题,所以我真的很想知道我如何解决这样的问题。这就是我现在所拥有的。在import time
from bs4 import BeautifulSoup
import requests
from requests.cookies import cookiejar_from_dict
last_agreed_time = str(int(time.time() * 1000))
url = 'www.tweakers.net'
with requests.Session() as session:
session.headers = {'User-Agent': 'Mozilla/5.0 (Linux; U; Android 4.0.3; ko-kr; LG-L160L Build/IML74K) AppleWebkit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30'}
session.cookies = cookiejar_from_dict({
'wt3_sid': %3B318816705845986
'wt_cdbeid': 68907f896d9f37509a2f4b0a9495f272
'wt_feid': 2f59b5d845403ada14b462a2c1d0b967
'wt_fweid' 473bb8c305b0b42f5202e14a
})
response = session.get(url)
soup = BeautifulSoup(response.content)
soup.prettify()`
别介意标题的内容,我是从别的地方撕下来的。在