python爬虫的第二次（知乎pyhton英文单词爬取）

最新推荐文章于 2024-07-08 23:30:58 发布

勇敢牛牛的喵桑

最新推荐文章于 2024-07-08 23:30:58 发布

阅读量438

点赞数

分类专栏： Python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35700085/article/details/108792350

版权

Python 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

爬取某个帖子的python相关的英文单词，以过滤中文，方便导入墨墨词本，但是还有些带（）注释的暂不知道怎么去除，先写出来，后续处理，附code

import requests
from bs4 import BeautifulSoup

# 服务器反爬虫机制会判断客户端请求头中的User-Agent是否来源于真实浏览器，所以，我们使用Requests经常会指定UA伪装成浏览器发起请求
headers = {'user-agent': 'Mozilla/5.0'}
testurl = "https://zhuanlan.zhihu.com/p/53641310"
# 使用request去get目标网址
res = requests.get(testurl, headers=headers)
# 更改网页编码--------不改会乱码
res.encoding = "UTF-8"
# 创建一个BeautifulSoup对象
soup = BeautifulSoup(res.text, "html.parser")

ans = soup.find_all(["p", "RichText ztext Post-RichText"])

for words in ans:
    wordlist = words.text
    word1 = (''.join(filter(lambda c: ord(c) < 256, wordlist)))
    word2 = word1.split(' ', 1)[0]
    print(word1)

勇敢牛牛的喵桑

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

勇敢牛牛的喵桑 CSDN认证博客专家 CSDN认证企业博客

码龄8年

55: 原创

1万+: 周排名

3万+: 总排名

11万+: 访问

: 等级

764: 积分

5515: 粉丝

146: 获赞

44: 评论

493: 收藏

私信

关注

热门文章

分类专栏

Linux系统相关 13篇
自动化脚本 3篇
Zabbix 6篇
VMware 4篇
K8S 4篇
其他工具 7篇
ELK 2篇
转载好文 1篇
Python 10篇
网络相关 3篇
Grafana 2篇
Exchange 2篇

最新评论

VMware下Centos7虚拟机数据盘/data目录（非lvm）不停机热扩容实操
CSDN-Ada助手: 不知道 CS入门技能树是否可以帮到你：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
VMware虚拟化常见故障问题及解决方法汇总（不定期更新）
勇敢牛牛的喵桑: 这种环境我也遇到过，但是是以前的事情，时间有点久了，你可以从以下几个方面检查一下： 1.双方宿主机的CPI结构和配置，VMware版本是否一致 2.双方虚拟机VMware tools是否正常 3.双方主机是否处于高负荷状态，能否冷迁移 4.双方主机是否有快照，有的话删掉试试 5.如果以上都不行，是否可以尝试做个克隆机迁移 6.如果以上还不行，考虑一下导出ovf再导入把，原因回头慢慢研究
VMware虚拟化常见故障问题及解决方法汇总（不定期更新）
2401_82378891: 大佬您好，我这边是vSphere6.5，我用您的方法改完进行迁移还是失败。
Docker学习笔记（自用，不定期更新）
小王毕业啦: 博主的文章“Docker学习笔记（自用，不定期更新）”让我对这个主题有了全新的认识，细节描写非常到位，让我感受到了博主深厚的功底。期待博主未来能够持续分享更多好文，为大家带来更多知识与启发。同时也希望能够得到博主的指导，共同进步。非常感谢博主的分享和支持！
if __name__ == ‘__main__‘详细解释及实操演示
InternetFake: 总结就是：导入时，if后不执行。直接运行时，则执行

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。