python爬虫环境搭建_python爬虫傻瓜教程(1)—开发环境配置

最近正好在学习python爬虫,零碎的知识点和碰到的问题需要不断的百度,导致走了不少弯路。既然都要记笔记,还不如整理成文章,还可以方便他人。有些人的问题可能我自己没有碰到过,可以留言一起讨论学习。

暂且以windows环境为例,MAC自己也有在用但是不多,一般的问题以windows环境为主。

安装以实用性为第一目的,直接推荐最方便的安装路径和过程了

1.Anaconda

之前学习的不知道这个神器导致系统里同时存在好几个python,环境也折腾的很混乱,强烈推荐初学者上来直接安装Anaconda,简单无脑全家桶,把一些常用的第三方库全部给带上了

卡的话用清华大学镜像,地址:Tsinghua Open Source Mirror​mirrors.tuna.tsinghua.edu.cn

Anaconda安装完成之后是连着python都帮你装好的,如果是自己安装的python就需要配置环境变量了

2.环境变量

计算机-属性-高级系统设置-环境变量-Path-编辑

找到pyhton3的安装目录,找不到的同学可以去下个everything找。把C:\Python36和C:\Python36/Scripts复制进去,用英文分号分隔开,点确定。

3.IDE安装

推荐pycharm,一个合适的IDE还是需要的,当然也可以用notepad++,sublime等等轻型工具。之前学习的时候把这些一股脑全下了,发现还是一个正式点IDE靠谱点,虽说可能同时会带来很多坑。

地址:PyCharm: Python IDE for Professional Developers by JetBrains​www.jetbrains.com

一路下一步知道安装完成就行,完成之后会让你选配置,直接选Do not import settings

打开后file-settings-Poject:python-Project Interpreter中设置解释器

小白直接选下面个吧,打上红框的勾,对所有项目都生效,可以避免90%的弱智问题,路径选之前Anaconda安装的路径,记得选python.exe

然后你就牛逼了,一堆三方库都可以用最简单pip的方式安装

如果系统只有一个python不会有很多奇奇怪怪比如我明明pip stall了怎么还是没库这种坑爹问题

pycharm其他设置可以专门写一篇文章了 凑合着用 需要的时候再设置就行 最基本的几项这里列一下

记住ALT+CTRL+S呼出设置,会经常用的

Project Interpreter:查看各种第三方库的地方

主题&列表字体:theme对应主题,size对应字体

光改了列表的字体没用,还要调下代码的字体:editor-font-size

第三方库安装

一、基本库

requests:爬虫必备,不多说

下方找到Terminal然后输入pip install requests就OK了

Selenium:自动化测试工具,对浏览器做各种操作用的,是不是想起了按键精灵

同理

ChromeDriver:配合chrome进行爬虫

地址:ChromeDriver Mirror​npm.taobao.org

找到和自己chrome对应的版本号下载,然后放到对应python的Scripts目录下

然后属于以下代码ALT+SHIFT+F10运行,Chrome弹出了就OK了

from selenium import webdriver

browser = webdriver.Chrome()

PhantomJS:后台浏览器,实际爬虫抓取地址的时候不用整天跳出个chrome看着了,喜欢看也可以不装

下载地址:Download PhantomJS​phantomjs.org

测试是否安装成功:

from selenium import webdriver

broswer = webdriver.PhantomJS()

broswer.get("https://www.baidu.com")

print(broswer.current_url)

输出了地址就对了,当然可能会报错,内容如下:

Selenium support for PhantomJS has been deprecated, please use headless

因为新版本不支持PhantomJS了,可以用Chrome headless模式代替,但是要求59版本以上

aiohttp:异步web服务库,提高效率的

pip install aiohttp就行

二、解析库

lxml:支持XPath解析方式,支持HTML和XML

pip install lxml

Beautiful Soup:同样是问一个HTML或XML的解析库

pip install beautifulsoup4

pyquery:支持CSS

pip install pyquery

tesserocr:搞定验证码

地址:Index of /tesseract​digi.bib.uni-mannheim.de

记得勾选addition language data

pip install tesserocr

三、框架

Scrapy:

如果之前是用Anaconda装的python

这时候只要

pip install Scrapy

就行了 不然的话还有一堆依赖库需要安装 而且经常会报错

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值