【python】爬虫1——下载博客文章

最新推荐文章于 2024-05-03 15:53:33 发布

洞之蝉

最新推荐文章于 2024-05-03 15:53:33 发布

阅读量726

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/muyimo/article/details/38041667

版权

Python 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

#! /usr/bin/env python
#coding=utf-8

#<a title="《论电影的七个元素》——关于我对电影的一些看法以及《后会无期》的一些消息" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">《论电影的七个元素》——关于我对电…</a>

from urllib import urlopen
str0 = 'blabla<a title="《论电影的七个元素》——关于我对电影的一些看法以及《后会无期》的一些消息" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">《论电影的七个元素》——关于我对电…</a>'
title = str0.find('<a title')
print title                           #得到<a title所在位置为6
href = str0.find(r'href=')<span style="font-family: Arial, Helvetica, sans-serif;">            #得到href所在位置为142</span>
print href
html = str0.find(r'.html')<span style="font-family: Arial, Helvetica, sans-serif;">          #得到html所在位置为142</span>
print html

url = str0[href+6:html+5]             #得到url：http://blog.sina.com.cn/s/blog_4701280b0102eo83.html
print url

content = urlopen(url).read()
#print content
filename = url[-26:]            #得到文件名blog_4701280b0102eo83.html
print filename
open(filename,'w').write(content)

1.查找url