python3爬取网页内容_python3.3 抓取网页数据

最新推荐文章于 2021-01-13 08:07:58 发布

weixin_39682301

最新推荐文章于 2021-01-13 08:07:58 发布

阅读量160

点赞数

文章标签： python3爬取网页内容

#coding: utf-8

import urllib.request

import re

""" ***************使用正则表达式提取网页中的标题、链接、图片***************"""

Target='http://www.baidu.com/index.php?tn=98012088_3_dg'

url=urllib.request.urlopen(Target)#urlopen返回一个类文件对象

page=url.read()#读取文件内容至pager

url.close()

fp=open("grab.txt","wb")

fp.write(page)

fp.close()#将抓取的网页内容存至文件grab.txt文件中，以备不时之需

page=page.decode('utf-8')#findall要求的对象格式为str

s=""

s=s+"标题：\n"

page_title=re.compile('&lttitle&gt(.+?)&lt/title&gt')

s=s+" "+page_title.findall(page)[0]+"\n"#提取标题

s=s+"图片：\n"

page_image=re.compile('&ltimg src=\"(.+?)\"')

for data in page_image.findall(page):

s=s+" "+data+"\n"#提取图片

s=s+"链接：\n"

page_link=re.compile('href=\"(.+?)\"')

for data in page_link.findall(page):

if "http" in data:

s=s+" "+data+"\n"#提取链接

print(s)

print("请按任意键结束",end='...')

Input=input()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注