python爬虫环境搭建_python爬虫傻瓜教程（1）—开发环境配置

最新推荐文章于 2023-04-25 17:12:35 发布

weixin_39630762

最新推荐文章于 2023-04-25 17:12:35 发布

阅读量205

点赞数

文章标签： python爬虫环境搭建

最近正好在学习python爬虫，零碎的知识点和碰到的问题需要不断的百度，导致走了不少弯路。既然都要记笔记，还不如整理成文章，还可以方便他人。有些人的问题可能我自己没有碰到过，可以留言一起讨论学习。

暂且以windows环境为例，MAC自己也有在用但是不多，一般的问题以windows环境为主。

安装以实用性为第一目的，直接推荐最方便的安装路径和过程了

1.Anaconda

之前学习的不知道这个神器导致系统里同时存在好几个python，环境也折腾的很混乱，强烈推荐初学者上来直接安装Anaconda，简单无脑全家桶，把一些常用的第三方库全部给带上了

卡的话用清华大学镜像，地址：Tsinghua Open Source Mirrormirrors.tuna.tsinghua.edu.cn

Anaconda安装完成之后是连着python都帮你装好的，如果是自己安装的python就需要配置环境变量了

2.环境变量

计算机-属性-高级系统设置-环境变量-Path-编辑

找到pyhton3的安装目录，找不到的同学可以去下个everything找。把C:\Python36和C:\Python36/Scripts复制进去，用英文分号分隔开，点确定。

3.IDE安装

推荐pycharm，一个合适的IDE还是需要的，当然也可以用notepad++，sublime等等轻型工具。之前学习的时候把这些一股脑全下了，发现还是一个正式点IDE靠谱点，虽说可能同时会带来很多坑。

地址：PyCharm: Python IDE for Professional Developers by JetBrainswww.jetbrains.com

一路下一步知道安装完成就行，完成之后会让你选配置，直接选Do not import settings

打开后file-settings-Poject：python-Project Interpreter中设置解释器

小白直接选下面个吧，打上红框的勾，对所有项目都生效，可以避免90%的弱智问题，路径选之前Anaconda安装的路径，记得选python.exe

然后你就牛逼了，一堆三方库都可以用最简单pip的方式安装

如果系统只有一个python不会有很多奇奇怪怪比如我明明pip stall了怎么还是没库这种坑爹问题

pycharm其他设置可以专门写一篇文章了凑合着用需要的时候再设置就行最基本的几项这里列一下

记住ALT+CTRL+S呼出设置，会经常用的

Project Interpreter：查看各种第三方库的地方

主题&列表字体：theme对应主题，size对应字体

光改了列表的字体没用，还要调下代码的字体：editor-font-size

第三方库安装

一、基本库

requests：爬虫必备，不多说

下方找到Terminal然后输入pip install requests就OK了

Selenium：自动化测试工具，对浏览器做各种操作用的，是不是想起了按键精灵

同理

ChromeDriver：配合chrome进行爬虫

地址：ChromeDriver Mirrornpm.taobao.org

找到和自己chrome对应的版本号下载，然后放到对应python的Scripts目录下

然后属于以下代码ALT+SHIFT+F10运行，Chrome弹出了就OK了

from selenium import webdriver

browser = webdriver.Chrome()

PhantomJS：后台浏览器，实际爬虫抓取地址的时候不用整天跳出个chrome看着了，喜欢看也可以不装

下载地址：Download PhantomJSphantomjs.org

测试是否安装成功：

from selenium import webdriver

broswer = webdriver.PhantomJS()

broswer.get("https://www.baidu.com")

print(broswer.current_url)

输出了地址就对了，当然可能会报错，内容如下：

Selenium support for PhantomJS has been deprecated, please use headless

因为新版本不支持PhantomJS了，可以用Chrome headless模式代替，但是要求59版本以上

aiohttp：异步web服务库，提高效率的

pip install aiohttp就行

二、解析库

lxml：支持XPath解析方式，支持HTML和XML

pip install lxml

Beautiful Soup:同样是问一个HTML或XML的解析库

pip install beautifulsoup4

pyquery：支持CSS

pip install pyquery

tesserocr：搞定验证码

地址：Index of /tesseractdigi.bib.uni-mannheim.de

记得勾选addition language data

pip install tesserocr

三、框架

Scrapy：

如果之前是用Anaconda装的python

这时候只要

pip install Scrapy

就行了不然的话还有一堆依赖库需要安装而且经常会报错

weixin_39630762

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫环境搭建_python爬虫傻瓜教程（1）—开发环境配置

最近正好在学习python爬虫，零碎的知识点和碰到的问题需要不断的百度，导致走了不少弯路。既然都要记笔记，还不如整理成文章，还可以方便他人。有些人的问题可能我自己没有碰到过，可以留言一起讨论学习。暂且以windows环境为例，MAC自己也有在用但是不多，一般的问题以windows环境为主。安装以实用性为第一目的，直接推荐最方便的安装路径和过程了1.Anaconda之前学习的不知道这个神器导致系统里...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。