python爬虫使用BeautifulSoup库简单快速抓取数据

最新推荐文章于 2024-03-19 20:34:59 发布

莫纳卡

最新推荐文章于 2024-03-19 20:34:59 发布

阅读量3.6k

点赞数 1

分类专栏： it 文章标签： python

本文链接：https://blog.csdn.net/b1249813239/article/details/80696447

版权

it 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

如何快速入门抓取html网页数据

开发准备：

1：开发工具使用pycharm，下载点击打开链接

2 : python3.6 下载点击打开链接

配置过程百度，不做细致分析，配置完成后进入开发，pycharm破解选择License server激活即可，idea.qmanga.com可用

下面进入快速抓取数据

第一步：

定义一个chrome浏览器，这里需要先下载chromedrive.exe，这是个驱动，当python执行命令时去打开chrome浏览器，需要配置环境变量，也可以不配置，使用chrome可以抓取到动态加载的js文件，方便了许多，不像使用webclient需要很多设置

配置好了环境变量，使用

browser = webdriver.Chrome()
未配置chromedrive环境变量需要制定path，如下
browser = webdriver.Chrome( "G:\chromedownlaods\chromedriver_win32\chromedriver.exe" )
将网页地址输入即可获取html网页数据
browser.get(url)
将得到数据使用 BeautifulSoup进行解析，这里用到lxml库

soup = BeautifulSoup(browser.page_source, "lxml")

第二步:

这时候已经得到网页数据并解析到soup，这里示例快速取得想要数据

一句代码即可

specification = soup.find('div', attrs={'id': 'spec_box'}).find("li", attrs={'class': 'dtl-inf-rur'}).getText()

find('div', attrs={'id': 'spec_box'}) 定位到以下

find("li", attrs={'class': 'dtl-inf-rur'}) 定位到以下

getText()获取文字内容

这样就已经快速抓到了数据，共4句代码，使用python相比较java简单了很多

莫纳卡

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录