
Python爬虫
Tsai时越
记录计算机技术学习与分享
展开
-
Python 爬虫json格式化输出
import requestsimport json# 构造请求头headers={ "Accept-Encoding": "identity", 'session':'JSESSIONID', 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 ' '(KHTML, like Gecko) Chrome/85.0.4183.102原创 2021-03-30 12:03:29 · 561 阅读 · 0 评论 -
Python request下载文件时,显示进度以及网速
import requestsimport timedef downloadFile(name, url): headers = {'Proxy-Connection':'keep-alive'} r = requests.get(url, stream=True, headers=headers) length = float(r.headers['content-length']) f = open(name, 'wb') count = 0 cou转载 2020-10-12 11:35:54 · 578 阅读 · 0 评论 -
Python 获取下载文件大小
import requests# 构造请求头headers={'session':'JSESSIONID','User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36'}#发送get请求urlurl=''r=requests.get(url,stream=True,headers=原创 2020-10-12 09:59:19 · 3184 阅读 · 0 评论 -
Python 下载图片(文件)的方法
import requestsimport os#创建目录文件夹os.makedirs('./image/', exist_ok=True)# 构造请求头headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36'}r=requests.get('https://原创 2020-09-24 14:36:21 · 12428 阅读 · 0 评论 -
Python爬虫 获取CSDN文章总数 获取任意页面的标签和属性(包括获取a标签的href属性)
import requestsfrom bs4 import BeautifulSoup# 构造请求头headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36'}r=requests.get('https://blog.csdn.net/qq_27694835',h原创 2020-09-24 11:43:27 · 1107 阅读 · 0 评论 -
Python 爬取CSDN文章标题、访问量、创建时间
import requestsfrom bs4 import BeautifulSoup# 构造请求头headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36'}# 发送get请求r=requests.get("https://blog.csdn.net/qq_2原创 2020-09-21 17:21:18 · 330 阅读 · 0 评论 -
Python爬虫 爬取CSDN访问量
import requestsimport compilefrom bs4 import BeautifulSoupheaders={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36'}r=requests.get("https://blog.csdn.net/qq_2769原创 2020-09-19 21:34:02 · 444 阅读 · 0 评论 -
Python爬虫 处理 URL 编码
URL 链接只能包含ASCII字符,如果有中文等非ascii 字符,就要先编码,例如https://www.ershicimi.com/search?q=程序员浏览器最自动转换成:https://www.ershicimi.com/search?q=%E7%A8%8B%E5%BA%8F%E5%91%98在Python中,如将转换呢? 可以使用 urllib.parse 模块中的方法 quoteimport urllib.parseurllib.parse.quote("https://www原创 2020-09-17 16:10:36 · 682 阅读 · 0 评论 -
Python爬虫 selenium 自动打开浏览器访问
from selenium import webdriverurl='http://www.lingzhilab.com/project/downFile?fileName=nodemcu%E5%BC%95%E8%84%9A%E5%AE%9A%E4%B9%89.png&pid=43'driver=webdriver.Chrome()driver.get(url)原创 2020-09-16 13:35:08 · 748 阅读 · 0 评论 -
Mac OS环境配置chromedriver
一、根据chrome版本选择对应的chrome driverselenium之 chromedriver与chrome版本映射表(更新至v2.29)chromedriver下载二、 chromedriver环境配置chromedriver文件放在“/usr/local/bin”目录下,然后运行下面的代码from selenium import webdriverdriver = webdriver.Chrome()base_url = 'https://www.baidu..转载 2020-09-16 01:41:00 · 1119 阅读 · 0 评论 -
Python爬虫 requests库 get/post请求 获取响应内容
import requestsr=requests.get('http://www.lingzhilab.com/resources/getAllRes?page=1')# u'文本内容'print(r.content)# 文本编码print(r.apparent_encoding) # utf-8# 响应状态码print(r.status_code) # 200# 文本内容print(r.text)原创 2020-09-16 02:12:07 · 7741 阅读 · 0 评论 -
Python爬虫 urllib库 POST 请求
import urllib.parseimport urllib.requestdata = bytes(urllib.parse.urlencode({'page': 1}), encoding='GBK')response = urllib.request.urlopen('http://www.lingzhilab.com/resources/getAllRes', data=data)s=response.read()print(s)原创 2020-09-16 13:36:14 · 334 阅读 · 0 评论 -
Python爬虫 urllib库
import urllib.requestresponse = urllib.request.urlopen('http://www.lingzhilab.com')# print(response.read().decode('utf-8'))#Response 的类型print(type(response))# 响应的状态码print(response.status)# 响应的头信息print(response.getheaders())# 响应的服务器print(res.原创 2020-09-16 13:35:27 · 88 阅读 · 0 评论