脚本之家抓取标题

最新推荐文章于 2021-02-28 12:34:25 发布

可爬

最新推荐文章于 2021-02-28 12:34:25 发布

阅读量429

点赞数

分类专栏： python爬虫入门

本文链接：https://blog.csdn.net/qq_40879289/article/details/82709772

版权

python爬虫入门专栏收录该内容

5 篇文章 0 订阅

订阅专栏

# encoding:UTF-8
import  urllib2
import  re

#<DT><span>日期:2018-08-15</span><a href="/article/145702.htm" title="Python使用pickle模块储存对象操作示例" target="_blank">Python使用pickle模块储存对象操作示例</a></DT>
url=urllib2.Request("https://www.jb51.net/list/list_97_1.htm")#脚本网址
Content=urllib2.urlopen(url).read().decode("gbk") #读取网页并解码
#restr="<span>(\\S+)</span>"                      #日期提取
restr=r"title=(\S+) target"                       #标题提取
regex=re.compile(restr,re.IGNORECASE)             #忽略大小写
Extra=regex.findall(Content)                      #匹配
for i in  Extra:
    print i