简单的爬虫加上一些六七八糟的东西

最新推荐文章于 2024-04-07 11:02:44 发布

qq_39043100

最新推荐文章于 2024-04-07 11:02:44 发布

阅读量223

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/qq_39043100/article/details/103417793

版权

爬虫专栏收录该内容

18 篇文章 0 订阅

订阅专栏

decode是解码

import urllib.request
import re
for i in range(1,6): #这里可以设置爬取多少页
url = ‘http://www.lovehhy.net/Default.aspx?LX=NHDZ&PG=’
url = url+str(i) #重新构建地址
#data = urllib.request.urlopen(url).read().decode(“utf-8”,‘ignore’)
data = urllib.request.urlopen(url).read().decode(“GB2312”,“ignore”)
pat = ‘<h3><a href="(.?)"’
rst = re.compile(pat).findall(data) #爬取每页里面每个小页面地址
for b in range(0,len(rst)):
data1 = urllib.request.urlopen(rst[b]).read().decode(“GB2312”, “ignore”)
pat1 = 'name=“description” content="(.?)" />’ #内容
rst1 = re.compile(pat1).findall(data1)
pat2 = ‘id=“TT” value="(.*?)" />’ #标题
rst2 = re.compile(pat2).findall(data1)
with open(‘E:/test/test.txt’,‘a’) as f1:
f1.write(str(rst2))
f1.write(’\n’)
f1.write(str(rst1))
f1.write(’\n’)

import urllib.request
urllib.request.urlretrieve(“http://www.rj0904.top”,“E:/test/aa.html”)
#urlretrieve(网站，本地文件储存地址)会直接下载网页到本地
urllib.request.urlcleanup()
#清除缓存
file=urllib.request.urlopen(“https://fanyi.baidu.com/”)
#这里后面不加read()那么就是以文件方式存在
#print(file.info())
#查看页面相应的简介信息info() 比如页面的编码服务名字,使用info()
print(file.getcode())
#查看页面状态码比如200 300 404 403 500这些,使用getcode()
print(file.geturl())
#获取当前访问页面的url地址，使用geturl()