python爬虫入门,几个常用方法

  • 将互联网上的东西下载到本地
import urllib.request
#urlretrieve
urllib.request.urlretrieve("https://www.baidu.com","C:/Users/10167/Desktop/address.html")
  • 清除缓存用
#urlcleanup,
urllib.request.urlcleanup()
  • 爬取的网页的简介信息
#info,
data = urllib.request.urlopen("https://blog.csdn.net/qq_40666620/article/details/102834104")
print(data.info())
  • 状态码,就可以找失效的连接什么的
#getcode:
print(data.getcode())
  • 获取当前爬取的url地址
#geturl:
print(data.geturl())
  • timeout超时设置
for i in range(0,100):
    try:
        data = urllib.request.urlopen("https://blog.csdn.net/qq_40666620/article/details/102834104"
                                      ,timeout=0.1).read()
        print("success")
    except Exception as error:
        print(error)
  • 自动模拟http请求
import re
#post,get
#get:
keyword = "python"
keyword = urllib.request.quote(keyword)
url="http://www.baidu.com/s?wd="+keyword
target = 'title":"(.*?)"'
#print(data)
for pn in range(0,10):
    #9*pn是因为现在百度一页是9条信息,pn已经不是页数了
    data = urllib.request.urlopen(url+"&pn="+str(9*pn)).read().decode("utf-8")
    result = re.compile(target).findall(data)
    for i in range(0,len(result)):
        print(result[i])
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值