小白如何使用python爬取网页信息

所需数据库:

requests 这也是爬虫最常用的数据库。
调用方式:import requests
开始时,可能并没有这个数据库,需要下载安装,
在电脑的cmd中输入pip install requests
等待安装后即可

建立头文件

目的为了绕过网站的反爬虫机制,进行UA伪装。
建立方式headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36' }
其中Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36为你浏览器上的头文件,可以在浏览器上打开开发者工具,快捷键ctrl +shift + i,在上面进行查看headers

获取网站的URL

在此处我用的是搜狐网站url = 'https://www.sogou.com/web',当然你也可以自己定义别的,比如百度

将URL携带的参数封装到字典中

#处理url携带的参数:封装到字典中
    kw = input('enter a word:')
    param = {
   
        
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Python_chen_zk

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值