戴上微笑-CSDN博客

原创 python 爬虫缓存的应用反爬机制

首先需要安装requests-cache模块 pip install requests-cache测试模块是否安装成功import requests_cacheversion = requests_cache.__version__print('版本号为：'version)输出结果：版本号为：0.5.2在使用Requests-Cache模块实现请求缓存时，只需要调用install_cache()函数即可，其语法如下：requests_cache.install_cache(cache_na

2020-12-01 09:31:26 419

原创 python 爬虫检测代理ip是否有效

import requestsimport pandasfrom lxml import etreeip_table=pandas.read_excel('ip.xlsx')ip = ip_table['ip']headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/53

2020-12-01 09:00:03 554

原创 python 爬虫获取免费的代理ip地址

import requestsfrom lxml import etreeimport pandas as pdip_list=[]#创建保存IP地址的列表def get_ip(url,headers): response = requests.get(url,headers=headers) response.encoding='utf-8'#设置编码方式 if response.status_code==200:#判断请求是否成功 html = etree

2020-11-30 13:32:47 873

原创 python 爬虫代理的应用

在爬取网页的过程中，经常会出现不就前可以爬取的网页现在无法爬取的情况，这是因为您的IP地址被爬取网站的服务器屏蔽了。此时，需要设置代理，代码如下：import requests#创建头部信息headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36'}proxy = {'http'

2020-11-30 13:12:15 107

原创 python 爬虫 requests模块实现上传文件files参数

使用requests模块实现向服务器上传文件非常简单，只需要指定post（）函数中的files参数即可。files参数可以指定一个BufferedReader对象，该对象可以使用内置的open（）函数返回。代码如下：import requestsbd = open('百度logo.png','rb')file = {'file':bd}response = requests.post('http://httpbin.org/post',files=file)print(response.text)

2020-11-30 13:04:09 4927

原创 python 爬虫网络超时与异常

在访问一个网页时，如果该网页长时间未响应，系统就会判断该网页超时，无法打开网页。模拟代码如下：import requestsfor a in range(0,100): try: response = requests.get('http://www.baidu.com/', timeout=0.02) print(response.status_code) except Exception as e: print('异常'+str(e))

2020-11-30 12:57:27 1604

原创 python 爬虫验证请求 requests模块中的auth参数可以实现

import requests#导入requests模块from requests.auth import HTTPBasicAuth#导入HTTPBasicAuth类#定义请求地址url = 'http://sck.rjkflm.com:666/spider/auth/'ah = HTTPBasicAuth('admin','admin')response = requests.get(url=url,auth=ah)if response.status_code==200: prin

2020-11-30 11:21:55 2019

原创 python 爬虫 requests模块中的会话请求 Session

在实现获得某个登陆后页面的信息时，可以使用设置Cookies的方式先实现模拟登陆，然后在获得登陆后的页面信息内容。这样虽然尅成功的获得页面中的信息，但是比较麻烦。在requests模块中的Session对象，通过该对象可以实现在同一会话内发送多次网络请求的功能，这相当于在浏览器中打开了一个新的选项卡，此时再获得登陆后页面中的数据时，可以发送两次请求，第一次发送登陆请求，而第二次请求可以在不设置Cookies的情况下获取登陆后的页面数据，代码如下：import requests#导入requests模块

2020-11-30 10:59:45 971

原创 python 爬虫 requests模块中的Cookies 验证通过验证cookies模拟登陆豆瓣登陆

在爬取某些数据时，需要进行网页的登陆，才可以进行数据的抓取工作。Cookies登陆就像很多网页中的自动登陆功能一样，可以让用户第二次登陆时不在需要验证账号和密码的情况下进行登陆。在requests模块中实现Cookies登陆时，首先需要在浏览器的开发者工具中找到可以实现登陆的Cookies信息，然后将Cookies信息处理并添加至RequestsCookieJar的对象中，最后将RequestsCookieJar对象作为网络请求的Cookies参数发送网络请求即可。登陆前F12打开开发者工具，然后点击登陆

2020-11-30 10:04:23 650 1

原创 python 爬虫添加请求头headers

有时候的请求网页内容时，会发现无论通过GET，POST以及其他请求方式，都会出现403错误。这种现象多数为服务器拒绝了您的访问，那是因为这些网站为了防止恶意采集信息，所使用的反爬虫设置。此时可以通过模拟浏览器的头部信息来进行访问，这样就能解决以上反爬设置的问题。代码如下：import requestsurl = 'https://www.baidu.com'#创建需要爬取网页的地址#创建头部信息headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.

2020-11-30 09:18:58 2817 1

原创 python 爬虫 POST请求

import requests # 导入网络请求模块requestsimport json # 导入json模块# 字典类型的表单参数data = { '1': '能力是有限的，而努力是无限的。', '2': '星光不问赶路人，时光不负有心人。'}#发送网络请求response = requests.post('http://httpbin.org/post', data=data)response_dict = json.loads(response.text)#将响应

2020-11-30 09:09:31 1745

原创 python 爬虫 GET(带参) 请求配置params参数

import requests#发送网络请求response = requests.get('http://httpbin.org/get?name=Jack&age=30')print(response.text)输出结果：{ "args": { "age": "30", "name": "Jack" }, "headers": { "Accept": "*/*", "Accept-Encoding": "gzip, deflate",

2020-11-30 08:51:05 5644

原创 python 爬虫爬取图片二进制数据

import requests#发送网络请求response = requests.get(‘https://www.baidu.com/img/bd_logo1.png?where=super’)print(response.content)#打印二进制数据with open(‘百度logo.png’, ‘wb’) as f:#通过open()函数将二进制数据写入本地文件f.write(response.content)#写入...

2020-11-29 23:27:41 931

原创 python 爬虫请求模块requests之get请求

import requests#发送网络请求response = requests.get(‘https://www.baidu.com’)print(response.status_code)#打印状态码print(response.url)#打印请求urlprint(response.headers)#打印头部信息print(response.cookies)#打印Cookie信息#实现不带参数的网络请求...

2020-11-29 23:16:05 644

pycharm常用快捷键

收集了pycharm常用的快键键

2021-01-11

python爬虫免费自动获取代理ip地址

使用python编写的，可以免费获取ip地址，用于爬虫使用，希望大家能用到，谢谢大家的支持和关注。也希望有更好的方法的提供参考。

2020-11-30

django登录注册实例代码.rar

django登录注册实例代码，成功实现了登录注册，希望大家能看懂整个流程学习到知识，有好的建议希望多多交流，谢谢关注。

2020-11-22

一个非常实用的初学者python爬虫案例项目

这是我自己在学习python爬虫之后完成的一个项目，其中遇到过问题，但是都是耐心的一个个去解决了，欢迎想学习python爬虫的朋友一起探讨一起进步

2020-11-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人