前言
嗨喽!大家好呀,这里是魔王哦~
python外包很多人都了解过,它的价位高低不等,具体看要做的需求决定,但如何保证没被坑呢~
今天我们来采集一下市场价,使自己心里有数~
本次目的:
Python采集某外包数据
环境使用:
- Python 3.8
- Pycharm
模块使用:
- requests >>> pip install requests
- parsel >>> pip install parsel
- csv
模块安装问题:
如果安装python第三方模块:
- win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
- 在pycharm中点击Terminal(终端) 输入安装命令
安装失败原因:
失败一:
pip 不是内部命令
解决方法:
设置环境变量
失败二:
出现大量报红 (read time out)
解决方法:
因为是网络链接超时, 需要切换镜像源
清华:https://pypi.tuna.tsinghua.edu.cn/simple
阿里云:http://mirrors.aliyun.com/pypi/simple/
中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
华中理工大学:http://pypi.hustunique.com/
山东理工大学:http://pypi.sdutlinux.org/
豆瓣:http://pypi.douban.com/simple/
例如:pip3 install -i https://pypi.doubanio.com/simple/ 模块名
失败三:
cmd里面显示已经安装过了, 或者安装成功了, 但是在pycharm里面还是无法导入
解决方法:
可能安装了多个python版本 (anaconda 或者 python 安装一个即可)
卸载一个就好或者你pycharm里面python解释器没有设置好
如何实现一个爬虫案例?
一. 去分析数据是什么样? 分析数据来源?
通过开发者工具进行抓包分析, 分析数据从哪里的
二. 代码实现步骤:
- 发送请求, 对于找到url地址发送请求
- 获取数据, 获取服务器返回数据
- 解析数据, 提取我们想要数据内容
- 保存数据, 保存csv表格里面
- 多页数据采集: 分析请求的url变化规律
代码
导入模块
# 导入数据请求模块 导入模块没有使用 灰色待机状态
import requests # 第三方模块 pip install requests (别人写好 开源代码,你可以直接去调用)
# 导入数据解析模块
import parsel # 第三方模块 pip install parsel
# 导入csv模块
import csv # 内置模块 不需要安装的
完整
f =