Python爬虫常用库安装

最新推荐文章于 2024-04-14 01:27:05 发布

weixin_33895657

最新推荐文章于 2024-04-14 01:27:05 发布

阅读量230

点赞数

文章标签：爬虫 python 开发工具

原文链接：http://www.cnblogs.com/believepd/p/10604844.html

版权

建议更换pip源到国内镜像，下载会快很多：https://www.cnblogs.com/believepd/p/10499844.html

requests

pip3 install requests

selenium

pip3 install selenium

安装好后，测试一下：

from selenium import webdriver
driver = webdriver.Chrome()

执行后报错了：

需要安装chromedriver才能完成chrome浏览器的驱动。

可以从这里下载适合自己的chromedriver（需要对应自己的chrome版本！！！）：https://npm.taobao.org/mirrors/chromedriver

比如我的是windows，解压后将chromedriver.exe放到某个配置好环境变量的目录下。

运行：

from selenium import webdriver
driver = webdriver.Chrome()
driver.get("https://www.baidu.com")
print(driver.page_source)

可以看到，自动打开百度并获取到了源代码。

但是，在做爬虫的时候，一直打开浏览器是不方便的，这时就需要一个没有界面的"浏览器"----phantomjs。

下载phantomjs：http://phantomjs.org/download.html

解压后，将bin目录配置到环境变量中。

from selenium import webdriver
driver = webdriver.PhantomJS(executable_path=r"D:\phantomjs-2.1.1-windows\bin\phantomjs.exe")
driver.get("https://www.baidu.com")
print(driver.page_source)

lxml

pip3 install lxml

beautifulsoup

pip3 install beautifulsoup4

from bs4 import BeautifulSoup
soup = BeautifulSoup("<html></html>", "lxml")

pyquery

pip3 install pyquery

from pyquery import PyQuery as pq
doc = pq("<html>hello!</html>")
result = doc("html").text()
print(result)  # hello!

pymongo

pip3 install pymongo

import pymongo
client = pymongo.MongoClient("localhost")
db = client["test_db"]
db["table"].insert({"name": "pd"})
result = db["table"].find_one({"name": "pd"})
print(result)