<python>简单的爬虫入门，一些爬取示例

最新推荐文章于 2023-12-11 14:24:55 发布

Red_Lotus_

最新推荐文章于 2023-12-11 14:24:55 发布

阅读量233

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/red_lotus_/article/details/102945278

版权

python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

百度360搜索关键词提交
搜索引擎关键词接口：
百度：“http://www.baidu.com/s?wd=keyword”
360：“http://www.so.com/s?q=keyword”
用params来获得搜索词

示例代码：

import requests
kv={'wd':'python'}#记得两个都要单引号
r=requests.get("http://www.baidu.com/s",params=kv)#parmas为想要搜素的关键词
print(r.status_code)#200
print(r.request.url)#http://www.baidu.com/s?wd=python
print(len(r.text))#返回信息的长度

图片的爬取和存储
对于网络图片，一般其都会有一个链接地址 - “http://www.example.com/picture.jpg”

import requests
import os
url="https://p1.ssl.qhimg.com/t0140f7a13a26e9fa90.jpg"
root="D://pics//"#定义根目录
path=root+url.split('/')[-1]
try:
     if not os.path.exists(root): #判断根目录是否存在
          os.mkdir(root)
     if not os.path.exists(path): #判断文件是否存在，如果不存在就能下载图片
          r=requests.get(url)
          #图片是二进制模式，那么如何转化呢，需要用到以下代码
          with open(path,'wb') as f: #打开文件
               f.write(r.content)#将内容写进文件里面，是否还记得r.content是二进制形式
               f.close()
               print("success")
     else:
          print("has exist")
except:
     print("fail")

ip地址归属地的自动查询
以ip138为例，可以先查询几个，然后查看其url的变化得出规律，然后根据其url的规律编写代码

import requests
url="http://m.ip138.com/ip.asp?ip="
try:
     r=requests.get(url+'202.38.193.65')
     r.raise_for_status()
     r.encoding=r.apparent_encoding
     print(r.text[-500:])
except:
     print("爬取失败")

Red_Lotus_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
<python>简单的爬虫入门，一些爬取示例

百度360搜索关键词提交搜索引擎关键词接口：百度：“http://www.baidu.com/s?wd=keyword”360：“http://www.so.com/s?q=keyword”用params来获得搜索词示例代码：import requestskv={'wd':'python'}#记得两个都要单引号r=requests.get("http://www.baidu.com...
复制链接

扫一扫