python的几种简单爬虫

爬虫的本质是用户给一个网站爬虫,并设置指定的规则,然后爬虫根据指定的网站去爬取相应的信息,也可以用另一种方式访问网站,指利用代码的方式去模拟浏览器进行前后端的交互。

import requests
url=“https://www.baidu.com/baidu?tn=monline_3_dg&ie=utf-8&wd=ice%20cube”
headers={
‘User-Agent’:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:101.0) Gecko/20100101 Firefox/101.0’
}
b=requests.get(url,headers=headers)
print(b.text)
b.close
#爬取搜狗引擎的一个特定内容

import requests
star=input(“you favorite star is:”)
url=“https://www.baidu.com/baidu?tn=monline_3_dg&ie=utf-8&wd={star}”
headers={
‘User-Agent’:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:101.0) Gecko/20100101 Firefox/101.0’
}
b=requests.get(url,headers=headers)
print(b.text)
b.close
#通过用户输入爬取搜索引擎的指定的内容

import requests
url=“https://fanyi.baidu.com/sug”
a=input(“你输入的英文单词为:”)
c={
“kw”:a
}
b=requests.post(url,data=c)
print(b.json())
b.close()
#一个名为在线百度翻译的爬虫

import requests
url=“http://movie.douban.com/j/chart/top_list”
param={
“type”:“24”,
“interval_id”:“100:90”,
“action”:“”,
“start”:0,
“limit”:20,
} #爬取规则,可添加爬取网页连接的数量等规则
headers={
“User-Agent”:“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36 Edg/97.0.1072.55”
}
b=requests.get(url=url,params=param,headers=headers)
print(b.json())
b.close()
#爬取电影网站的爬虫

#都是在线爬取,结果显示在命令框下,并无下载网页文件的功能
#为基础爬虫

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值