python爬虫入门，几个常用方法

最新推荐文章于 2022-06-23 10:58:24 发布

胜天半子_王二_王半仙

最新推荐文章于 2022-06-23 10:58:24 发布

阅读量217

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/qq_40666620/article/details/102846788

版权

python 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

将互联网上的东西下载到本地

import urllib.request
#urlretrieve
urllib.request.urlretrieve("https://www.baidu.com","C:/Users/10167/Desktop/address.html")

清除缓存用

#urlcleanup，
urllib.request.urlcleanup()

爬取的网页的简介信息

#info，
data = urllib.request.urlopen("https://blog.csdn.net/qq_40666620/article/details/102834104")
print(data.info())

状态码，就可以找失效的连接什么的

#getcode：
print(data.getcode())

获取当前爬取的url地址

#geturl：
print(data.geturl())

timeout超时设置

for i in range(0,100):
    try:
        data = urllib.request.urlopen("https://blog.csdn.net/qq_40666620/article/details/102834104"
                                      ,timeout=0.1).read()
        print("success")
    except Exception as error:
        print(error)

自动模拟http请求

import re
#post,get
#get:
keyword = "python"
keyword = urllib.request.quote(keyword)
url="http://www.baidu.com/s?wd="+keyword
target = 'title":"(.*?)"'
#print(data)
for pn in range(0,10):
    #9*pn是因为现在百度一页是9条信息，pn已经不是页数了
    data = urllib.request.urlopen(url+"&pn="+str(9*pn)).read().decode("utf-8")
    result = re.compile(target).findall(data)
    for i in range(0,len(result)):
        print(result[i])

胜天半子_王二_王半仙

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫入门，几个常用方法

将互联网上的东西下载到本地import urllib.request#urlretrieveurllib.request.urlretrieve("https://www.baidu.com","C:/Users/10167/Desktop/address.html")清除缓存用#urlcleanup，urllib.request.urlcleanup()爬取的网页的简...
复制链接

扫一扫

专栏目录