001 爬虫环境配置

一、Python3 + pip 环境配置

1.Windows

  • 下载安装anaconda(anaconda清华镜像)
  • Pycharm专业版

2.Linux

sudo apt-get install python3-dev build-essential libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev

sudo apt-get install python3

sudo apt-get install python3-pip

二、MongoDB环境配置

1.Windows

mongodb官网下载mongodb
安装 MongoDB

在C:\MongoDB\Server\3.4新建一个名为data的文件夹

进入data 新建一个db文件夹

进入bin目录 按住shift键 点击鼠标右键 打开命令行

mongod --dbpath C:\MongoDB\Server\3.4\data\db

在网页输入 localhost:20717 验证是否启动成功

C:\MongoDB\Server\3.4\bin>mongo 进入一个客户端命令行交互模式

cmd 以管理员权限运行

cd C:\MongoDB\Server\3.4\bin

进入data文件夹 新建一个文件夹logs 进入logs 新建一个文本文档mongo.log

在 C:\MongoDB\Server\3.4\bin>中输入命令配置MongoDB服务

C:\MongoDB\Server\3.4\bin>mongod --bind_ip 0.0.0.0 --logpath C:\MongoDB\Server\3.4\bin\data\logs\mongo.log --logappend --dbpath C:\MongoDB\Server\3.4\bin\data\db --port 27017 --serviceName "MongoDB" --serviceDisplayName "MongoDB" --install

2.Linux

sudo apt-get install mongodb

mongod 查看

mongo 命令行交互模式

三、Redis环境安装

1.Windows

菜鸟教程 Redis安装 Github

2.Linux

sudo apt-get install redis-server

redis-cli
- set ‘a’ ‘b’
OK
- get ‘a’
“b”

sudo vi /etc/redis/redis.conf

①注释# bind 127.0.0.1(可以在远程连接数据库)
②找到396行 requirepass foobared -> 将密码改成 requirepass 111111(可以设置任意),:wq保存退出

redis-cli -a 111111

get ‘a’

四、MySQL

1.Windows

正常下载安装

2.Linux

sudo su

sudo apt-get install mysql-server mysql-client

mysql -uroot -p

  • Enter password:111111

mysql> show databases;

mysql> select * from db;

mysql> exit

cd /etc/mysql/

ls

cd mysql.conf.d/

vi mysqld.cnf

前面加#注释bind 127.0.0.1(可以远程连接)

五、爬虫常用库的安装

1.Windows

1. urllib re

两个python自带库

2.requests

pip3 install requests (安装请求库)

3.selenium
  • selenium是驱动浏览器用来做自动化测试的一个库
  • 我们在做爬虫的时候会遇到一些JS渲染的一些网页,用request请求获取的时候就无法请求到网页的内容了,所以可以用selenium这个库可以直接驱动浏览器,用浏览器直接执行JS的渲染,然后我们得到的就是JS渲染之后的结果,就可以拿到JS渲染之后的内容

pip install selenium

测试selenium 
python 
>>> import selenium
>>> from selenium import webdriver 
4.chromedriver

[chromedriverchrome的版本对照表]http://blog.csdn.net/huilan_same/article/details/51896672

  • 把chromedriver放在python36->Scripts 文件目录下

  • 在命令行中输入 chromedriver 即可查看到chromedriver的信息

>>>: import selenium
>>>: from selenium import webdriver 
>>>: driver = webdriver.Chrome()
>>>: driver.get('http://www.baidu.com') 
5.phantomjs(没有界面的浏览器)

[phantomjs官网下载]phantomjs.org/download.html

  • 配置环境变量

命令行交互窗口测试

phantomjs

python中测试

from selenium import webdriver
driver = webdriver.PhantomJS()
driver.get('http://www.baidu.com')
6.lxml
pip install lxml
7.beautifulsoup(网页解析库)

依赖于lxml

pip install beautifulsoup4

查看是否安装成功

from bs4 import BeautifulSoup
soup = BeautifulSoup('<html></html>','lxml')  #生成一个soup对象,'lxml'是解析模式
8.pyquery(网页解析库)
pip install pyquery

和jquery语法一样

9.pymysql(存储库)

pip install pymysql

10.pymongo(存储库)

pip install pymongo

11.redis(存储库)

pip install redis

12.flask

pip install flask

13.django

pip install django

14.jupyter

2.Linux

pip3 install requests selenium beautifulsoup4 pyquery pymysql pymongo redis flask django jupyter
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

豆豆orz

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值