python网络爬虫的开发环境_Python网络爬虫开发从环境搭建到实例爬取网页

最新推荐文章于 2023-02-01 12:02:19 发布

WouldYouKindly

最新推荐文章于 2023-02-01 12:02:19 发布

阅读量343

点赞数

文章标签： python网络爬虫的开发环境

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30064143/article/details/114458648

版权

本文介绍了Python网络爬虫的开发环境配置，使用PyCharm设置项目解释器并安装requests-html库。接着展示了如何爬取某博主在CSDN上的文章，包括文章的标题、时间及阅读量。通过HTMLSession、XPath等技术解析网页源代码，遍历获取所有文章信息。最后鼓励读者尝试爬取其他内容。

摘要由CSDN通过智能技术生成

环境准备：

事先安装好，pycharm

打开File——>Settings——>Projext——>Project Interpriter

点击加号(图中红圈的地方)

点击红圈中的按钮

选中第一条，点击铅笔，将原来的链接替换为(这里已经替换过了)：

https://pypi.tuna.tsinghua.edu.cn/simple/

点击OK后，输入requests-html然后回车

选中requests-html后点击Install Package

等待安装成功，关闭

通过解析网页源代码

实例内容：

从某博主的所有文章爬取想要的内容。

实例背景：

从(https://me.csdn.net/weixin_44286745)博主的所有文章获取各文章的标题，时间，阅读量。

导入requests_html中HTMLSession方法，并创建其对象

from requests_html import HTMLSession

session = HTMLSession()

使用get请求获取要爬的网站,得到该网页的源代码。

html = session.get("https://me.csdn.net/weixin_44286745").html

找到所有文章

allBlog=html.xpath("//dl[@class='tab_page_list']")

进入网站主页(本例： https://me.csdn.net/weixin_44286745)

文章空白处右键检查可以定位到这文章的标签

其他文章一样操作，然后找到所有文章共同的标记(这里所有文章的class都是‘my_tab_page_con’)

xpath 可以遍历html的各个标签和属性，来定位到我们需要的信息的位置，并提取。

网页分析获取标题，阅读量，日期。

for i in allBlog:

title = i.xpath("dl/dt/h3/a")[0].text

views = i.xpath("//div[@class='tab_page_b_l fl']")[0].text

date = i.xpath("//div[@class='tab_page_b_r fr']")[0].text

print(title +' ' +views +' ' + date )

网页分析：

因为有多篇文章，分别获取使用for循环，上述代码已得到所有文章所以i表示一篇文章

第二行代码获取文章标题，于获取文章类似，鼠标放到标题上右键检查，因为文章只有一个标题所以用绝对路径也可以按标签一层层进到标题位置。

xpath返回的是列表，我们要第一个所以要加下标(列表里也只有一个元素)，要输出的是文本，所以,text获取文本。

阅读量和时间也是重复的操作

可以用相对路径也可以用绝对路径，一般都是用相对路径，格式仿照代码。

第五行代码，每得到一篇文章的信息就输出，遍历完就可以获得全部的信息。

完整代码：

from requests_html import HTMLSession

session = HTMLSession()

html = session.get("https://me.csdn.net/weixin_44286745").html

allBlog=html.xpath("//dl[@class='tab_page_list']")

for i in allBlog:

title = i.xpath("dl/dt/h3/a")[0].text

views = i.xpath("//div[@class='tab_page_b_l fl']")[0].text

date = i.xpath("//div[@class='tab_page_b_r fr']")[0].text

print(title +' ' +views +' ' + date )

可以自己爬其他东西，如文章图片，动手试试吧！！！

未完待续

通过html请求

自动化

本文地址：https://blog.csdn.net/m0_49139268/article/details/109054155

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。