<python>简单的爬虫入门,一些爬取示例

百度360搜索关键词提交
搜索引擎关键词接口:
百度:“http://www.baidu.com/s?wd=keyword”
360:“http://www.so.com/s?q=keyword”
用params来获得搜索词

示例代码:

import requests
kv={'wd':'python'}#记得两个都要单引号
r=requests.get("http://www.baidu.com/s",params=kv)#parmas为想要搜素的关键词
print(r.status_code)#200
print(r.request.url)#http://www.baidu.com/s?wd=python
print(len(r.text))#返回信息的长度

图片的爬取和存储
对于网络图片,一般其都会有一个链接地址 - “http://www.example.com/picture.jpg”

import requests
import os
url="https://p1.ssl.qhimg.com/t0140f7a13a26e9fa90.jpg"
root="D://pics//"#定义根目录
path=root+url.split('/')[-1]
try:
     if not os.path.exists(root): #判断根目录是否存在
          os.mkdir(root)
     if not os.path.exists(path): #判断文件是否存在,如果不存在就能下载图片
          r=requests.get(url)
          #图片是二进制模式,那么如何转化呢,需要用到以下代码
          with open(path,'wb') as f: #打开文件
               f.write(r.content)#将内容写进文件里面,是否还记得r.content是二进制形式
               f.close()
               print("success")
     else:
          print("has exist")
except:
     print("fail")

ip地址归属地的自动查询
以ip138为例,可以先查询几个,然后查看其url的变化得出规律,然后根据其url的规律编写代码

import requests
url="http://m.ip138.com/ip.asp?ip="
try:
     r=requests.get(url+'202.38.193.65')
     r.raise_for_status()
     r.encoding=r.apparent_encoding
     print(r.text[-500:])
except:
     print("爬取失败")
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值