安装python自带的库
url 和 re
这两个库在安装python的时候会自带,正常情况下导入是正常的。
request库
这个库不是python安装的时候自带的,需要自行安装,安装命令:
pip install requests
selenium库(驱动浏览器的库)
同样,这个库需要自己安装,安装命令
pip intall selenium
然后测试一下:
import selenium
from selenium import webdriver
driver = webdriver.Chrome()
没有猜错的话会出现报错信息,说是chromedriver没有加到系统变量里,所以我们需要安装一个chromedriver,安装chromedriver直接在网上搜索就可以了,然后因为现在介绍的是windows下的安装,所以记得选windows的安装包:
安装完成之后是一个压缩包,解压它然后将解压过后的exe文件放在python文件夹下,如果你使用的是虚拟环境,可以将.exe文件放在虚拟环境的python解释器所在的文件目录下,比如我就放在虚拟环境为pc的文件夹下:
当然也可以放到scripts文件夹下:
现在再试一遍:
就成功打开了谷歌浏览器。如果你发现你的浏览器只是一闪而过,那么可能是你的浏览器版本过低,这时候需要更新浏览器,具体还是看报错信息。注意:如果成功打开了谷歌浏览器,不要关闭界面,因为关闭了就无法驱动浏览器了。
现在可以驱动浏览器了:
driver.get('http://www.baidu.com')
查看网页的源码:
driver.page_source
lxml安装(进行网页解析)
pip install lxml
beautifulsoup安装(网页解析,依赖于lxml)
pip install beautifulsoup4
注意这里是beatifulsoup4,然后导入的时候需要这样导入:
from bs4 import BeautifulSoup as bs
为啥这么导入呢?看官网:https://pypi.org/project/beautifulsoup4/
当然打开这个网页就有介绍如何导入使用的例子,你还可以在这里下载源代码:
下载好了之后解压,打开setup文件看到:
所以是beautifulsoup4,又看到bs4文件夹,所以是from bs4 import…
加一句,如果你想安装python第三方库又特别慢,除了添加镜像你还可以在这里下载.whl文件,然后将这个文件放在一个指定的位置,直接输入:
pip install <文件路径>
即可,当然前提是你还安装了第三方库:wheel
接着“美丽的汤”操作,然后创建一个bs对象:
soup = bs('<html></html>','lxml')
安装pyquery
pip install pyquery
from pyquery import PyQuery as pq
# pq传进去的第一个参数是网页源代码
doc = pq('<html></html>')
# 可以像这个网页源代码填充一个字符串
doc = pq('<html>pyquery</html>')
# 使用doc的方法来解析这个字符串:
result = doc('html').text()
print(result)
pymysql安装(操作数据库存储)
pip install cryptography
pip install pymysql
(两个指令都需要输入)
前提是要在自己的电脑上安装好MySQL,安装好MySQL之后可以简单测试一下pymsql是否可以使用:
注意这里的用户名和密码还有想要连接的数据库根据自己的情况更改。
pymongo安装(操作mongo db,也是一种数据库)
pip install pymongo
redis(也是一种数据库,运行效率高)
pip install redis
flask(web库,代理设置的时候会用到)
pip install flask
一个小应用:
from flask import Flask
app = Flask(__name__)
@app.route('/')
def hello_world():
return 'Hello World!'
if __name__ == "__main__":
app.run()
请注意保存的文件名不为flask.py,因为这将于Flask本身冲突。