python小程序如何转换成网页_一个简单的python网页解析+本地文件名修改的小程序...

最新推荐文章于 2023-06-16 13:24:47 发布

weixin_39827304

最新推荐文章于 2023-06-16 13:24:47 发布

阅读量486

点赞数

文章标签： python小程序如何转换成网页

昨天在码农周刊上看到有整理的机器学习相关的经典论文集合，链接在这里http://suanfazu.com/discussion/68/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%BB%8F%E5%85%B8%E8%AE%BA%E6%96%87survey%E5%90%88%E9%9B%86?utm_campaign=Manong_Weekly_Issue_11&utm_medium=EDM&utm_source=Manong_Weekly。页面上每篇论文点进去就是下载的链接。作为一个松鼠显然想把它们都下载了收藏起来，但是手动下载还分类整理太麻烦了，于是就写了个python的小程序，自动下载这些pdf并按类别保存在不同的文件夹里。

主要用了beautifulsoup，因为页面元素非常规律因此写起来很省事，大体如下：

因为网页里的类别(比如Active Learning，Biology，Classification)这种大黑标题都用了标签，之后与并列的下一个标签是一个空白
,再之后就是罗列了论文标题的列表

了， 里包含若干论文，里有下载链接，以及text论文名称。

Application

paer title

大概就是上面这样的结构，所以只要找到所有的标签(也就是类别名)，利用类别名建立文件夹，然后用next_sibling找到这个类别的文章列表，用标签的href属性找到每篇文章的下载链接，text找到标题名，再用urllib.urlretrieve下载就好，代码如下：

#!-*-coding:utf-8-*

importurllibimporturllib2importbs4importos

saveurl= "/home/yujing/dev/papers/";defdownloadFunc( b,alist):

os.chdir(saveurl)

folder=b.textif notos.path.exists(folder):

os.mkdir(folder)

os.chdir(folder)for a inalist:

pdfurl= a['href']

pdfname=a.textif notos.path.exists(pdfname):

urllib.urlretrieve(pdfurl,pdfname)defprocess():

headers= {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

siteurl= "http://suanfazu.com/discussion/68/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%BB%8F%E5%85%B8%E8%AE%BA%E6%96%87survey%E5%90%88%E9%9B%86?utm_campaign=Manong_Weekly_Issue_11&utm_medium=EDM&utm_source=Manong_Weekly"req=urllib2.Request(siteurl,headers=headers)

response=urllib2.urlopen(req)

pages=response.read()

page=bs4.BeautifulSoup(pages)

blist= page.find_all('b')for b inblist:print(b.text)

ul=b.next_sibling.next_sibling;

alist= ul.find_all('a')

downloadFunc(b,alist)

这样有个问题，因为论文的标题里有些：、<>这种符号，在linux下可以，但是windows的文件名是不可以包括这些字符的，于是又需要批量改下文件名。。。然后正好又学习了下相关的os模块的函数，把用到的简单列在下面：

#切换工作目录

os.chdir(url)#列出指定路径下的目录和文件

os.listdir(url)#获取当前目录

os.getcwd()#回上一级目录