爬取某个帖子的python相关的英文单词,以过滤中文,方便导入墨墨词本,但是还有些带()注释的暂不知道怎么去除,先写出来,后续处理,附code
import requests
from bs4 import BeautifulSoup
# 服务器反爬虫机制会判断客户端请求头中的User-Agent是否来源于真实浏览器,所以,我们使用Requests经常会指定UA伪装成浏览器发起请求
headers = {'user-agent': 'Mozilla/5.0'}
testurl = "https://zhuanlan.zhihu.com/p/53641310"
# 使用request去get目标网址
res = requests.get(testurl, headers=headers)
# 更改网页编码--------不改会乱码
res.encoding = "UTF-8"
# 创建一个BeautifulSoup对象
soup = BeautifulSoup(res.text, "html.parser")
ans = soup.find_all(["p", "RichText ztext Post-RichText"])
for words in ans:
wordlist = words.text
word1 = (''.join(filter(lambda c: ord(c) < 256, wordlist)))
word2 = word1.split(' ', 1)[0]
print(word1)