简单的爬虫加上一些六七八糟的东西

decode是解码

import urllib.request
import re
for i in range(1,6): #这里可以设置爬取多少页
  url = ‘http://www.lovehhy.net/Default.aspx?LX=NHDZ&PG=’
  url = url+str(i) #重新构建地址
  #data = urllib.request.urlopen(url).read().decode(“utf-8”,‘ignore’)
  data = urllib.request.urlopen(url).read().decode(“GB2312”,“ignore”)
  pat = ‘<h3><a href="(.?)"’
  rst = re.compile(pat).findall(data) #爬取每页里面每个小页面地址
  for b in range(0,len(rst)):
   data1 = urllib.request.urlopen(rst[b]).read().decode(“GB2312”, “ignore”)
   pat1 = 'name=“description” content="(.
?)" />’ #内容
   rst1 = re.compile(pat1).findall(data1)
   pat2 = ‘id=“TT” value="(.*?)" />’ #标题
   rst2 = re.compile(pat2).findall(data1)
   with open(‘E:/test/test.txt’,‘a’) as f1:
    f1.write(str(rst2))
    f1.write(’\n’)
    f1.write(str(rst1))
    f1.write(’\n’)

import urllib.request
urllib.request.urlretrieve(“http://www.rj0904.top”,“E:/test/aa.html”)
#urlretrieve(网站,本地文件储存地址)会直接下载网页到本地
urllib.request.urlcleanup()
#清除缓存
file=urllib.request.urlopen(“https://fanyi.baidu.com/”)
#这里后面不加read()那么就是以文件方式存在
#print(file.info())
#查看页面相应的简介信息info() 比如页面的编码 服务名字,使用info()
print(file.getcode())
#查看页面状态码 比如200 300 404 403 500这些,使用getcode()
print(file.geturl())
#获取当前访问页面的url地址,使用geturl()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值