Step02:python爬虫库的安装

1.pip升级

python -m pip install --upgrade pip

2.urllib / re

验证:
import urllib
import re
import urllib.request
urllib.request.urlopen(‘http://www.baidu.com’)

3.requests(请求时用的库)

python36/scripts/
–pip
–pip3
–pip3.6

pip3 install requests
python
import requests
requests.get(‘http://www.baidu.com’)

4.selenium(驱动浏览器的库)

python3
import selenium
pip3 install selenium

import selenium
from selenium import webdriver
driver = webdriver.Chrome() #error
exit()

chromedriver
baidu:chromedriver 官网
下载地址:http://chromedriver.storage.googleapis.com/index.html?path=2.41/
》打开Chrome浏览器
》chrome://version/
》查看chrome版本,下载对应的chromedriver
》laster release: download chromedriver_win32.zip
》尽量下载2.41版本
解压
exe文件复制到python36 || python/Scripts目录下

验证:
cmd
chromedriver

python3
from selenium import webdriver
driver = webdriver.Chrome() #再报错就是Chrome版本太低或太高
driver.get("http://www.baidu.com")
driver.get("http://www.python.org")
driver.page_source #展示网页的源代码

chrome浏览器下载安装,更换Chrome版本 或者 chromedirver版本;Chromedriver.exe移动到python3或python3/scripts这些已经添加到PATH中的目录

5.phantomjs

不需要弹出浏览器,在后台
baidu:phantomjs官网
downloads:windows …zip
解压,把exe文件所在目录配置到PATH中
验证测试
cmd
phantomjs
#出现网页控制台
console.log(‘hello world’)
ctrl + c

python3
from selenium import webdriver
driver = webdriver.PhantomJS()
driver.get("http://www.baidu.com")
driver.page_source

6.lxml

cmd
pip3 install lxml
或者:
baidu:pypi.python.org 搜索lxml 下载.whl文件
前提:时pip3 install wheel
pip3 uninstall lxml
pip3 install C:\download\lxml…whl(即下载好的文件)(右键属性,安全选项,有路径)
cmd 右键 快速编辑模式

7.beautifulsoup

依赖于lxml
pip3 install beautifulsoup4
python3
from bs4 import BeautifulSoup
soup = BeautifulSoup(’’,‘lxml’)
源码下载
baidu:pypi.python.org
find:beautifulsoup4 4.5.3(或者其他版本)
有源代码下载.tar.gz文件
解压
查看目录会发现有bs4文件夹,这也是为什么这个模块是bs4

8.pyquery 网页信息库 更方便

pip3 install pyquery

python3
from pyquery import PyQuery as pq
doc = pq('<html></html>')
doc = pq('<html>hello</html>')
result = doc('html').text()
result

pyquery官网
查看API

9.pymysql

打开mysql-front查看mysql下表db中有一条数据
pip3 install pymysql

python3
import pymysql
conn = pymysql.connect(host='locahost', user='root', password='123456',port=3306,db='mysql')
cursor = conn.cursor()
cursor.execute('select * from db')
cursor.fetchone()

打开mysql-front查看mysql下表db中数据是否一致

10. pymongo

打开管理-》服务-》mongodb服务启动
cmd
pip3 install pymongo

python3
import pymongo
client = pymongo.MongoClient('localhost')
db = client['newtestdb']
db['table'].insert({'name':'Bob'})
db['table'].find_one({'name':'Bob'})

11.redis 分布式爬虫需要

pip3 install redis

python3
import redis
r = redis.Redis('localhost', 6379)
r.set('name', 'Bob')
r.get('name')

12.flask 代理设计时需要的库 外部库

百度:flask官网–>介绍
pip3 install flask
python3
import flask

13.django

web服务器框架 可以用来做一个完整的网站
django官网
pipe install django
python3
import django

14.jupyter

网页上的记事本 功能强大
jupyter 官网:查看使用说明
pip3 install jupyter
python3/scripts下多了许多jupyter可执行文件

cmd
jupyter notebook
弹出浏览器网页,在8888端口
new—>python3—>rename"testdemo"
可以输入代码,测试运行(在线)
print(“hello world”)
ctrl+回车 可以运行代码
B键,增加一行
import requests
reponse = requests.get(“http://www.baidu.com”)
print(reponse.text)
ctrl+回车

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

指尖码动

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值