![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
python实践
以实战为线索,逐步深入python selenium各个环节,提升工程化编码能力和思维能力。
垂钓西湖边
这个作者很懒,什么都没留下…
展开
-
用python实现相声、评书自动下载(六)
用request_heml现在爬不到任何东西,应该是做了屏蔽。那么就要换个思路了,不用request请求网站,而且全部用selenium来操作。还是打开任意一个作品的第一页,然后获取网页源代码,通过源代码来获取所有的所有的跳转链接和当前界面所有的下载链接。主要更新了这个方法:def getAllSession(url): #当前页所有的链接 print('It\'s comming getAllSession()!') html = driver.page_sourc原创 2021-04-01 17:45:11 · 140 阅读 · 0 评论 -
用python实现相声、评书自动下载(五)
写完这些后,觉得分两个脚本跑太麻烦,而且每次还要去改下载脚本的csv文件名,效率太低。于是把所有的代码整合到一起,实现伪·全自动下载,只要有第一页的链接,就可以下完所有的相声、评书。发这篇博客的时候出现了一个问题,用link = r.html.absolute_links爬源码,返回的结果集变成了se(),还不清楚是什么原因。其实做成全自动的也有思路,就是打开任意一个人的作品集。抓取所有作品的“第一页”链接,然后用getAllLink()函数去打开每个作品的第一页,后面的步骤都一样。也许以后有空了会写原创 2021-03-12 16:23:12 · 200 阅读 · 0 评论 -
用python实现相声、评书自动下载(四)
对到目前为止遇到的所有异常做处理。from selenium import webdriverfrom requests_html import HTMLSessionimport requestsimport timeimport reimport pandas as pdfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selen原创 2021-03-12 15:11:55 · 130 阅读 · 0 评论 -
用python实现相声、评书自动下载(三)
在用python实现相声、评书自动下载(二)写了怎么爬所有的下载链接,那么在这篇写怎么下载。其实代码和(一)差不多from selenium import webdriverfrom requests_html import HTMLSessionimport requestsimport timeimport pandas as pddata = pd.read_csv('allLinks.csv', encoding='GB18030')driver = webdriver.Chro原创 2021-03-12 15:08:45 · 111 阅读 · 0 评论 -
用python实现相声、评书自动下载(二)
接用python实现相声、评书自动下载(一)。之前的代码成功爬到了这个评书网址的郭德纲的相声,但是每次都要手动去切下载链接,挺麻烦的。而且这个网站评书资源比较少,而且时不时放不了,所以换了一个网站。这次要求高一点,不但要自动爬下载链接,而且如果有多页的情况,要能自动跳转到下一页,并且爬下载链接。实现思路:1.手动打开第一页(以后会做成自动化),先爬网页源代码;driver = webdriver.Chrome()targetUrl = 'https://www.pingshu8.com/Mu原创 2021-03-12 15:06:39 · 196 阅读 · 0 评论 -
用python实现相声、评书自动下载(一)
由于最近开车听歌实在听腻了,就想听几段相声解解乏。但是各个音乐平台上相声实在是少,于是只能自己去网上找。这是最初版本的code,相当简陋,下载链接都是手动复制网页源代码,然后用正则切出来的。from selenium import webdriverfrom requests_html import HTMLSessionimport requestsimport timeimport jsonxs_list = [ "https://www.pingshu365.com/down/3原创 2021-03-12 14:31:00 · 206 阅读 · 0 评论