前言
嗨喽!大家好呀,这里是魔王~
开发环境:
- Python 3.8
- Pycharm
模块使用:
- requests >>> pip install requests
- parsel >>> pip install parsel
如果安装python第三方模块:
- win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
- 在pycharm中点击Terminal(终端) 输入安装命令
如何配置pycharm里面的python解释器?
- 选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)
- 点击齿轮, 选择add
- 添加python安装路径
pycharm如何安装插件?
- 选择file(文件) >>> setting(设置) >>> Plugins(插件)
- 点击 Marketplace 输入想要安装的插件名字 比如:翻译插件 输入 translation / 汉化插件 输入 Chinese
- 选择相应的插件点击 install(安装) 即可
- 安装成功之后 是会弹出 重启pycharm的选项 点击确定, 重启即可生效
代理ip结构
proxies_dict = {
"http": "http://" + ip:端口,
"https": "http://" + ip:端口,
}
思路:
一. 数据来源分析
找我们想要数据内容, 从哪里来的
二. 代码实现步骤:
- 发送请求, 对于目标网址发送请求
- 获取数据, 获取服务器返回响应数据(网页源代码)
- 解析数据, 提取我们想要的数据内容
- 保存数据, 爬音乐 视频 本地csv 数据库… IP检测, 检测IP代理是否可用 可用用IP代理 保存
from 从
import 导入
从 什么模块里面 导入 什么方法
from xxx import * # 导入所有方法
代码
# 导入数据请求模块
import requests # 数据请求模块 第三方模块 pip install requests
# 导入 正则表达式模块
import re # 内置模块
# 导入数据解析模块
import parsel # 数据解析模块 第三方模块 pip install parsel >>> 这个是scrapy框架核心组件
lis = []
lis_1 = []
# 1. 发送请求, 对于目标网址发送请求 https://www.kuaidaili.com/free/
for page in range(11, 21):
url = f'https://www