本人开发环境: python 3.7.1 和pyChar
准备 首先 安装requests: pip install requests
安装lxml :pip install lxml
安装 BeautifulSoup :pip install BeautifulSoup4
安装成功后 编写如下代码:
(如果对 pip 不熟悉 可以看下这个文章 了解模仿使用 https://blog.csdn.net/qq_36355271/article/details/85260645)
import requests
import timeimport random
from bs4 import BeautifulSoup
context=requests.get('https://movie.douban.com/top250?start=0&filter=')
# print(context.text)
baetu=BeautifulSoup(context.text,'lxml')
# lis=list[]
lis=baetu.select('.grid_view li')
for li in lis:
time.sleep(random.random()+1)
span_list=li.select('.star span')
print("-"*50)
com_num=span_list[3].text.replace('人评价','')
print(int(com_num))
此处获取的豆瓣top250 电影评论人数:
(爬虫的本质是解析 网络语言 html ,从中提取有用信息)
如果对web开发有一定了解 上面代码非常简单,否则简易先去简单了解下 web端 页面的html
上面同样的道理可以获取很多你需要的其他信息。