Python爬虫初步探索

最新推荐文章于 2024-09-14 08:25:16 发布

JS_WONG

最新推荐文章于 2024-09-14 08:25:16 发布

阅读量265

点赞数

分类专栏：日常心得工作日志文章标签： python 数据分析

本文链接：https://blog.csdn.net/HJ_xing/article/details/103796396

版权

日常心得同时被 2 个专栏收录

10 篇文章 7 订阅

订阅专栏

工作日志

2 篇文章 1 订阅

订阅专栏

朋友有个爬数据填表的需求，想让我实现一下，正好Python在爬虫上应用广泛，我也可以藉此练练手。

2020年的第一天，开工。

小目标：每日定时爬取某网页中一个表格中指定数据。

早上，先了解了各种爬虫技术（其实就是第三方库）的差异、优缺点，发现功能上基本类似或者有交集。

其中一篇文章说到Scrapy适用于大项目，Requests使用于小项目，暂时作参考吧，先用着Requests。

在查阅资料过程中，发现Requests库的作者又有个新库——Requests-html。So，决定了，用Requests-html。

做个小demo，先爬个百度，我要爬到搜索键中的“百度一下”四个字。步骤如下：

安装Requests-html，pip安装即可。（过程中因为本地之前装了几个Python环境，pip命令无法正常使用。想到以后项目、包、环境都要管理，所以最好开始使用Anaconda，这就是另一个Blog了）
上代码，参考

from requests_html import HTMLSession

session = HTMLSession()
r = session.get('https://www.baidu.com/')
print(r.html.html)

print可以看到baidu.com所有的html代码，在Chrome中使用开发者工具(F12)查看到“百度一下”四字嵌套在多层的标签当中，要提取出来就要使用定位元素的技术，这时有一个重要的概念“CSS选择器”，简单理解就是元素嵌套位置的路径。如图：(获取CSS选择器，可以在开发者工具中的element页中，对选中的元素右键选择“Copy”→“Copy selector”)
元素的id = su，使用find函数中，CSS选择器的参数填入’#su’，取出attribute为’value’，代码如下

from requests_html import HTMLSession

session = HTMLSession()
r = session.get('https://www.baidu.com/')
searchword = r.html.find('#su', first=True)
print(searchword.attrs['value'])
# 百度一下