学python编程_中年大叔学编程-我用Python保存金山词霸每日一句

其实金山词霸每日一句已经出来很久了,但是我都不知道,今天去金山词霸的官网看了看,感觉这些句子都挺不错的,所以就想着把它们给存下来。

cf64b1e4143aeadc0f8b375f7556168e.png

我大概看了一下他的页面,请求的敏感数据是加密的,页面是基于请求的数据动态渲染的,去解析结构的话,会比较花时间,这里我就使用selenium来简化操作,它可以模拟浏览器,直接把数据渲染成最终的展示出来的页面,然后,直接解析最终的html就可以得到最终的结果。

安装selenium

pip install selenium
7be9fc0c4ee31569569b835cdc878d98.png

因为是这里是用的google浏览器版本 83.0.4103.97(正式版本) (32 位),所以 这里我们需要去http://npm.taobao.org/mirrors/chromedriver下载对应的chromedriver驱动,然后解压到Python的安装目录。 如果不指定自己的安装路径,可以在cmd中执行where python命令来查找

C:甥敳獲lenovo>where pythonD:ProgramsPythonPython38-32python.exeC:甥敳獲lenovoAppDataLocalMicrosoftWindowsAppspython.exe

把我们下载的chromedriver复制到对应的目录,我这里是D:ProgramsPythonPython38-32

使用的selenium

那么这里先简单的写几句代码

from selenium import webdriverbrowser=webdriver.Chrome()browser.get('http://news.iciba.com/views/dailysentence/daily.html#!/detail/title/2020-06-05')print(browser.page_source)

我们运行python demo.py就会看到这样的效果

8637d90a38db05011de0dacc1812fd70.gif

这里我需要它的图片、英文和汉译,我们来看看它的网页元素结构

0187ffe6cdbe323bfce43b4ecb9c9441.png

它的英文和汉译分别在detail-content-en和detail-content-zh两个class节点中,这里我们需要借助另外一个插件来解析selenium获取到的html,它就是PyQuery,先执行pip install PyQuery 把它安装下来,现在我们来开始获取他的英文内容、汉译内容以及图片地址

from selenium import webdriverfrom pyquery import PyQuery as pqfrom time import sleepbrowser = webdriver.Chrome()browser.get(    'http://news.iciba.com/views/dailysentence/daily.html#!/detail/title/2020-06-05')  # 访问页面sleep(5)  # 等待5秒钟html = browser.page_source  # 获取页面渲染好的htmlpage = pq(html)  # 装载到pyquery中en = page(".detail-content-en")   # 查找英文节点zh = page(".detail-content-zh")   # 查找中文节点img = page(".detail-banner-img")  # 查找图片print(en.text())print(zh.text())print(img.attr('src'))browser.quit()  # 退出浏览器
3489d4ba0b9858f7ca8abb38efb13695.png

现在,我们来把每日一句的内容保存下来

from selenium import webdriverfrom pyquery import PyQuery as pqimport timeimport requestscur_date = time.strftime("%Y-%m-%d", time.localtime(time.time()))  # 取当前日期browser = webdriver.Chrome()browser.get(    'http://news.iciba.com/views/dailysentence/daily.html#!/detail/title/'+cur_date)  # 访问页面time.sleep(5)  # 等待5秒钟html = browser.page_source  # 获取页面渲染好的htmlpage = pq(html)  # 装载到pyquery中en = page(".detail-content-en")   # 查找英文节点zh = page(".detail-content-zh")   # 查找中文节点img = page(".detail-banner-img")  # 查找图片with open('D:/ciba/'+cur_date+'.txt', 'wb') as file:  # 将内容写入txt文本    file.write(en.text().encode())    file.write("".encode())    file.write(zh.text().encode())img_url = img.attr('src')r = requests.get(img_url)with open('D:/ciba/'+cur_date+'.jpg', 'wb')as f:  # 将图片保存成文件    f.write(r.content)browser.quit()  # 退出浏览器

现在,我们执行python demo.py,就可以得到这样的效果

c66ebdcd17e2a0a06cc78a71fd1bfe90.png

是不是感觉有点意思?

我只是记录我的学习过程,由于书读的少,可能很多地方表述或者是理解得不对,请轻喷并指正。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值