python爬虫学习笔记(一)

目前正在学习python爬虫,在网上找了一些很基础的课程,在这里做点笔记分享。

需要的模块有:

from urllib import request
import re #正则表达试
import random

from urllib import request老师说这里可以写成:import urllib.request,不过我在使用后者写法的时候调用:request.Request()会显示NameError: name ‘request’ is not defined,我研究了半天是一脸的懵,后来没法只能换成第一种写法才没有报错!我怀疑是我的电脑配置问题。

爬虫机制分为两个部分:请求和响应
在发起请求前需要做两件事情:

ur1=r"http://www.baidu.com/"#要爬的的网址
#反爬虫机制:判断用户是否是浏览器访问。可以通过伪装浏览器进行访问
#伪装浏览器User-Agent,然后随机选择User-Agent访问,避免触碰反爬虫机制手段之一
agent1="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"
agent2="Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.7 (KHTML, like Gecko) Chrome/20.0.1099.0 Safari/536.7 QQBrowser/6.14.15493.201"
agent3="Opera/9.80 (Windo
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值