爬虫
枫叶
这个作者很懒,什么都没留下…
展开
-
常用状态码及请求方式
200 OK - [GET]:服务器成功返回用户请求的数据,该操作是幂等的(Idempotent)。 201 CREATED - [POST/PUT/PATCH]:用户新建或修改数据成功。 202 Accepted - [*]:表示一个请求已经进入后台排队(异步任务) 204 NO CONTENT - [DELETE]:用户删除数据成功。 400 INVALID REQUEST - [POST/PUT/PATCH]:用户发出的请求有错误,服务器没有进行新建或修改数据的操作,该操作是幂等的。 401 Unau原创 2020-07-04 16:28:59 · 223 阅读 · 0 评论 -
爬取微信公众号的历史文章
from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.wait import WebDriverWait import time import datetime from openpyxl import Workbook原创 2020-05-10 10:36:39 · 899 阅读 · 0 评论 -
利用requests和正则爬取猫眼前一百评分电影,并保存到本地
import requests, re, json from requests.exceptions import RequestException from multiprocessing import Pool #引入一个进程池 from tqdm import tqdm def get_one_page(url): headers = { 'User-Agent': ...原创 2020-05-01 19:40:50 · 265 阅读 · 0 评论 -
QQ自动化发情话给女朋友小程序
要实现qq自动发情话给女朋友需要两个条件。 第一,要有情话语料,这个要通过爬虫实现。 第二,要实现qq发消息的自动化,这个要靠pywin32这个库实现。 接下来我们来看具体的代码: import requests,re # requests是用来爬取需要的语料的,re是用来分析语料的 def getinfo(url): req = requests.get(url) if re...原创 2020-04-29 16:10:32 · 1449 阅读 · 0 评论 -
douban图书的爬取
import requests import re headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36' } content = requests.get('...原创 2020-04-26 15:44:30 · 429 阅读 · 1 评论 -
爬虫常用的requests库的学习使用
import requests response = requests.get('https://www.baidu.com') print(type(response)) print(response.status_code) print(type(response.text)) print(response.text) print(response.cookies) import requ...原创 2020-04-24 18:38:53 · 323 阅读 · 0 评论