爬虫初识

本文介绍了爬虫的基本概念,包括使用requests和BeautifulSoup等工具进行网页抓取,并探讨了网站反爬策略,如通过请求信息、登录验证、验证码、用户行为等识别爬虫。同时,文章讨论了应对反爬的策略,如调整爬虫速度、使用UA池、IP池和Cookie池,以及自动化处理加密参数和验证码的方法。
摘要由CSDN通过智能技术生成

爬虫

博客参考

  1. 开源模块:
  • requests
    response = requests.get(“url”)
    response.text
    response.content
    response.encoding = response.apparent_encoding # 使用网站编码
    response.status_code
    response.cookies.get_dict()
    requests.get(“url”, cookie={‘xx’: ‘yy’})
    requests.request方法参数:
    -method: 提交方式
    -url: 提交URL
    -params: 在URL中传递的参数
requests.request(
	method='GET',
	url='http://www.baidu.com',
	params={
   'k1':'v1','k2':'v2'}
)

-data: 在请求体重传递的参数

requests.request(
	method='GET',
	url='http://www.baidu.com',
	data={
   'k1':'v1','k2':'v2'}
)

-json: 在请求体重传递的参数(字典中嵌套字典时使用)

requests.request(
	method='GET',
	url='http://www.baidu.com',
	data={
   'k1':'v1','k2':{
   'k3':'v3'}}
)

-headers: 请求头

requests.request(
	method='POST',
	url='https://github.com/login',
	data={
   'k1':'v1','k2':{
   'k3':'v3'}},
	headers={
   
		
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值