如何用python来爬取网页数据?

 具体步骤:

1.首先通过requests来发送HTTP请求

           注:没有requests的可以通过以下指令安装:

               Windows操作系统:pip install requests

               Mac操作系统:pip3 install requests

               inux操作系统:sodo pip install requests

2.定制请求头

3.添加代理IP定制 

           代理IP:使用代理IP可以使我们不会因为爬取次数过多而遭到封禁(代理IP获取地址已放到最后)

4 .爬取对象网址,在这里我所爬取的对象是豆瓣

5.设置所需要传递的参数

            注:这里的"search_text:love"(表示搜索的是关于love的),cat:1003(表示为音乐),如果出现多个参数,每个参数需要用“,”隔开

6.设置请求头及方式及传递参数

 7.打印结果

            注:第一个print是打印网址,而第二个print是打印状态,当状态为200时则表示请成功

           当我们点击所打印出来的网址时会直接跳转到该网页界面,就像这样

参考资料:

       代理IP地址 :

                 免费:https://github.com/awolfly9/IPProxyTool

                            https://www.zdaye.com/dayProxy.html(个人推荐)

                 付费:https://一元机场.com/#/dashboard

      所有代码:

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值