python爬虫使用BeautifulSoup库简单快速抓取数据

如何快速入门抓取html网页数据

开发准备:

1:开发工具使用pycharm,下载点击打开链接

2 : python3.6 下载点击打开链接

配置过程百度,不做细致分析,配置完成后进入开发,pycharm破解选择License server激活即可,idea.qmanga.com可用

下面进入快速抓取数据

第一步:

定义一个chrome浏览器,这里需要先下载chromedrive.exe,这是个驱动,当python执行命令时去打开chrome浏览器,  需要配置环境变量,也可以不配置,使用chrome可以抓取到动态加载的js文件,方便了许多,不像使用webclient需要很多设置

配置好了环境变量,使用

browser = webdriver.Chrome()
未配置chromedrive环境变量需要制定path,如下
browser = webdriver.Chrome( "G:\chromedownlaods\chromedriver_win32\chromedriver.exe"
将网页地址输入即可获取html网页数据
browser.get(url)
将得到数据使用 BeautifulSoup进行解析,这里用到lxml库

soup = BeautifulSoup(browser.page_source, "lxml")

第二步:

这时候已经得到网页数据并解析到soup,这里示例快速取得想要数据 


一句代码即可
specification = soup.find('div', attrs={'id': 'spec_box'}).find("li", attrs={'class': 'dtl-inf-rur'}).getText()
 
find('div', attrs={'id': 'spec_box'}) 定位到以下
 
find("li", attrs={'class': 'dtl-inf-rur'}) 定位到以下

 
getText()获取文字内容
这样就已经快速抓到了数据,共4句代码,使用python相比较java简单了很多
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值