爬虫学习笔记num3

最新推荐文章于 2023-10-02 19:59:33 发布

Lfeng_rui

最新推荐文章于 2023-10-02 19:59:33 发布

阅读量168

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/Lfeng_yan/article/details/109118786

版权

爬虫专栏收录该内容

11 篇文章 0 订阅

订阅专栏

爬虫学习笔记num3

基于笔记二中的get发送请求，之前没有考虑UA伪装，本次将get请求中的params参数和headers参数进行赋值。
对于URL携带的参数要封装到字典中。

import requests
#处理url中携带的参数要封装到字典中
url = "www.xxx.com"
kw = input("enter a word:")
param = {'query': kw}
# 对指定url发起请求对应的url是携带参数，并且请求过程中处理了参数
response = requests.get(url = url,params=param)
page_text = response.text
filename = kw + '.html'
with open(filename,'w',encoding = 'utf-8') as fp:
	fp.write(page_text)

get请求中params参数是直接拼接到url地址后面的
如：

url= 'www.xxx.com/'
param = {'port':200}
#拼接的地址就为www.xxx.com/port=200
get(url = url ,params = param)

UA伪装属于一种反爬机制
UA检测：门户网站服务器会检测对应的请求载体的身份标识，如检测到请求是浏览器，说明该请求是正常请求。如果检测请求不是基于浏览器的请求则说明是不正常的请求，就要进行拦截。所以让爬虫对应的请求载体标识伪装成浏览器。

headers = {'user-agent':'系统版本+浏览器的版本号'}
get(url=url,params=param,headers = headers)

** post请求中data相当于get请求中params**

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Lfeng_rui

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

2.requests模块入门

xueluoyihai的博客

07-29

226

1.python中关于网络请求的模块： urllib模块比较古老的模块，不怎么使用了 requests模块简捷高效 2.requests模块： python中原生的一款基于网络请求的模块，功能强大，效率高。作用：模拟浏览器发请求。如何使用：指定url 发起请求获取响应数据数据解析持久化储存环境安装： pip install requests 3.实战 1.需求：爬取搜狗首页的页面数据 import requests if __name__ =="_

爬虫学习笔记

Zikade0627的博客

02-19

1748

爬虫 1. 简单的爬虫 from urllib.request import urlopen url = "https://ssr1.scrape.center/" resp = urlopen(url) message = resp.read().decode("utf-8") print(message) with open("my_spyder.html", mode="w") as f: f.write(message) print("

参与评论您还未登录，请先登录后发表或查看评论

python爬虫基础

xuexiwd的博客

08-05

6205

实战一：网页采集器 UA：User-Agent(请求载体的身份标识) UA检测:门户网站的服务器会检测对应请求的载体身份标识，如果检测到请求的载体身份标识为某一款浏览器说明请求是一个正常的请求。但是，如果检测到请求的载体身份标识不是基于某一款浏览器的，则表示该请求为不正常的请求(爬虫)，则服务器端就很有可能拒绝该次请求 UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器导包 import requests if __name__ == "__main__": UA伪装：将对应的User-Ag

Python数据类型，字符编码，文件处理

Petrus

09-13

289

一.字符串 #需要掌握的操作 #1、strip,lstrip,rstrip #2、lower,upper #3、startswith,endswith #4、format的三种玩法 #5、split,rsplit #6、join #7、replace #8、isdigit #strip name="*Petrus**" print(name.strip("*")) print(name.ls...

爬虫简单应用百度搜索，可输入

qq_51014805的博客

11-17

355

import requests url = 'https://www.sogou.com/web' kw = input('enter a word:') # 可输入内容，查询 param = { 'query':kw } # 模拟浏览器 headers={ "User-Agent": "Mozilla / 5.0(Windows NT 6.1;WOW64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 85.0.4183.83Sa

学习笔记(03):Python爬虫开发-requests模块巩固深入案例之简易网页采集器UA伪装，

weixin_45925755的博客

02-09

215

立即学习:https://edu.csdn.net/course/play/24454/306760?utm_source=blogtoedu # 简易的网页采集器 # UA伪装 """UA:User-Agent(请求载体的身份标识) UA检测：门户网站会的服务器会检测对应请求的载体身份标识，如果检测到请求的载体神扥标识为某一款浏览器该请求为一个正常的请求，但是如果检测到请求的载体身份标识...

Python爬虫简单实战（爬取CSDN博客阅读数）

Q_M_X_D_D_的博客

07-04

874

在这学期学习了java web的基础上，又学习了Python的基本语法，所以尝试着做了一个简单版的爬虫，爬取了我所有博客的阅读数。进阶版：https://blog.csdn.net/Q_M_X_D_D_/article/details/94732292 编程思路实现这个简单的爬虫大致分三步： 1、先使用Python的第三方库requests来...

python网络爬虫学习笔记（1）

09-20

**Python网络爬虫学习笔记（1）** 网络爬虫是一种自动化程序，用于从互联网上抓取大量数据。Python因其简洁的语法和丰富的库支持，成为网络爬虫开发的热门选择。本篇学习笔记将介绍Python网络爬虫的基础知识，包括...

爬虫学习笔记num6-肯德基餐厅地址查询

Lfeng_yan的博客

10-19

853

肯德基餐厅地址爬取需求：爬取肯德基在某地区的餐厅地址，餐厅名称当我们输入城市关键字点击查询之后，网址的url并没有改变，说明我们想要的数据并没有在该网址上，数据都是动态加载出来的使用抓包工具当点击查询的时候得到如下一个请求在response中得到一个json字符串，格式化之后得到这样一个列表可知这是动态加载的数据–ajax请求（直接用url发送请求不行） import requests url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreL

Node.js Puppeteer 爬虫简单学习笔记

最新发布

qq_33365152的博客

10-02

1471

Node.js Puppeteer 爬虫简单学习笔记，案例：爬取音乐、图片、视频、文本内容

python爬虫学习笔记

missing_socks的博客

10-15

234

基于豆瓣爬虫的股票爬取豆瓣电影爬虫为大佬的代码 import requests from bs4 import BeautifulSoup import pandas as pd # 构造分页数字列表 page_indexs = range(0, 250, 25) def download_all_htmls(): """ 下载所有列表页面的HTML，用于后续的分析 """ htmls = [] for idx in page_indexs:

input 没有 name="kw" 的时候，在输入框输入值，按回车，地址栏无法带入kw参数。当加上name="kw"时，会一切正常。这是什么逻辑？？？？

qq_26726121的博客

04-29

527

function search() { var kw = $("#kw").val(); window.location.href = “/Console/index?kw=” + kw; } function EnterPress(e) { var e = e || window.event; if (e.keyCode == 13) { search(); } } <input type...

C++ NUM3

qq_54627325的博客

10-20

288

C++存储类 auto存储类声明变量时根据初始化表达式自动推断该变量的类型、声明函数时函数返回值的占位符。如：auto f=3.14; register存储类定义存储在寄存器中而不是 RAM 中的局部变量。 static 存储类使用 static 修饰局部变量可以在函数调用之间保持局部变量的值。static 修饰符也可以应用于全局变量。当 static 修饰全局变量时，会使变量的作用域限制在声明它的文件内。 extern存储类 mutable存储类说明符声明的变量仅...

JavaScript---函数

qq_45802159的博客

11-23

278

函数其实就是封装，把可以重复使用的代码放到函数中，如果需要多次使用同一段代码，就可以把封装成一个函数。这样的话，在你需要再次写这些代码的时候，你只需要调用一次函数就行了。 1.定函数的方式使用字面量的形式定义函数 ECMAScript中的函数使用function关键字来声明，后面跟一组参数及函数体。函数的基本语法如下： function sum(num1, num2) { var num...

python爬虫

qq_43546813的博客

11-10

133

resquests破解百度翻译 import requests import json if __name__ == '__main__': #1.指定url post_url = "https://fanyi.baidu.com/sug" #2.UA伪装 headers ={ 'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KH

Python爬虫-2-get请求

karry_孙二的博客

10-13

3659

get请求常见使用方法 1.网站分类如下图页面的每个分类，通过get请求数据 2.网站分页如：链家租房页面的分页 3.搜索关键字如：百度搜索 4.瀑布流参数如百度图片：不会一次性将所有图片全部显示出来，这样会给服务器造成压力，也避免客户长时间的等待，所以图片都是慢慢加载出来的 urllib get 1.url分析我们在爬取网站之前，...

爬虫入门实例

yucong0916的博客

11-29

159

通用爬虫入门实例听完B站波波老师的详细爬虫讲解之后自己将前几节的学习代码实操记录一下。第一篇：爬取搜狗首页源代码如下： import requests if name==‘main’: url=‘https://www.sogou.com/’ response=requests.get(url=url) page_text=response.text with open(‘sougou.html’,‘w’,encoding=‘utf-8’) as fp: fp.write(page_text) p

爬虫学习，request学习记录1

qq_42015021的博客

03-02

104

request学习记录导入包 import requests UA伪装伪装的目的:告诉门户网站自己是个人让爬虫对应的请求载体伪装为一个浏览器 if name == ‘main’: headers = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36’ } # 1.指定url kw = inp

爬虫笔记num7-验证码识别

Lfeng_yan的博客

10-21

1046

验证码识别反爬机制处理方法：识别图片中的数据，用于模拟登陆识别验证码的操作人工肉眼识别（不推荐）第三方自动识别（推荐）（云打码，斐斐打码，超级鹰等）需要充值使用流程（使用的云打码）（之后云打码已经用不了，超级鹰跟下属步骤几乎相似）注册（普通或者开发者用户）开发者用户——创建软件——添加新软件——导入软件名称——提交———产生软件秘钥和id——开发文档——下载实例代码——点击下载云打码接口代码中只需要修改部分用户名，密码，软件id，秘钥上图为超级鹰的开发文档，选择开发语言。之

"Python爬虫学习笔记：正则表达式与re库基本使用

同时，对于希望深入学习爬虫的人来说，掌握正则表达式也是必不可少的一项技能。因此，推荐对于爬虫学习感兴趣的朋友们，认真阅读并学习《Python爬虫学习笔记.pdf》中关于正则表达式的相关内容，相信会对你的学习和...