如何快速入门抓取html网页数据
开发准备:
1:开发工具使用pycharm,下载点击打开链接
2 : python3.6 下载点击打开链接
配置过程百度,不做细致分析,配置完成后进入开发,pycharm破解选择License server激活即可,idea.qmanga.com可用
下面进入快速抓取数据
第一步:
定义一个chrome浏览器,这里需要先下载chromedrive.exe,这是个驱动,当python执行命令时去打开chrome浏览器, 需要配置环境变量,也可以不配置,使用chrome可以抓取到动态加载的js文件,方便了许多,不像使用webclient需要很多设置
配置好了环境变量,使用
browser = webdriver.Chrome()未配置chromedrive环境变量需要制定path,如下
browser = webdriver.Chrome( "G:\chromedownlaods\chromedriver_win32\chromedriver.exe" )
将网页地址输入即可获取html网页数据
browser.get(url)
将得到数据使用 BeautifulSoup进行解析,这里用到lxml库
soup = BeautifulSoup(browser.page_source, "lxml")
第二步:
这时候已经得到网页数据并解析到soup,这里示例快速取得想要数据
一句代码即可
specification = soup.find('div', attrs={'id': 'spec_box'}).find("li", attrs={'class': 'dtl-inf-rur'}).getText()
find('div', attrs={'id': 'spec_box'}) 定位到以下
find("li", attrs={'class': 'dtl-inf-rur'}) 定位到以下
getText()获取文字内容
这样就已经快速抓到了数据,共4句代码,使用python相比较java简单了很多