学完一点简单的爬虫技术后,直接开始实践…
将知乎的某个评论内容爬取下来,取出里面的关键字,并按照点赞数排序,形成一个表单,点击查看,可以看到原来的内容,比如下面这个网页:
python能做那些有趣还很酷的事
我们发现右边的下拉条是拉不到底的,而且打开开发者模式,发现拉一点,他就加载一点,我们需要循环拉到底
,然后获取整个网页的HTML内容
在进行代码编译前需要根据自己浏览器的版本,比如我的谷歌在搜索框输入:chrome://version/
出现:
Google Chrome 96.0.4664.93 (正式版本) (64 位) (cohort: Stable)
我的就是96的
下载地址:http://chromedriver.storage.googleapis.com/index.html
选择符合自己的版本和系统的压缩包,解压后放到项目文件目录下
第一步:获取网页HTML内容
需要导入的库:
from selenium import webdriver # 控制滚动条
from time import sleep # 时间控制
from bs4 import BeautifulSoup # 网页解析 获取数据
代码
# 获取网页HTML内容
def gethtml(url):
driver = webdriver.Chrome() # 初始化一个浏览器
driver.maximize_window() # 设置窗口最大化
driver.get(url) # 打开网页
driver.refresh() # 刷新一下(如果不刷新,在下面循环的时候到最底下就会直接跳出)
temp_h = 0 # 设置一个高度为 0
js = "var q=document.documentElement.scrollTop=100000"
driver.execute_script(js) # 执行上一行的js语句,直接将滚动条下拉到最底下
sleep(3) # 等待三秒,向远程
count = 100
while count > 0: # 这里设置的循环一百次,想爬取完全可以改为True
count -= 1
driver.execute_script("window.scrollBy(0,4000)") # 循环向下拉去4000个单位,可以按照自己的速度设置快慢
sleep(3)
check_h = driver.execute_script("return document.documentElement.scrollTop;") # 获取当前滑动条的位置
if check_h == temp_h:
sleep(3) # 如果相等,等待3秒网速加载
check_h = driver.execute_script("return document.documentElement.scrollTop;")
if check_h == temp_h:
break # 如果还相等,说明滑动条已经跳到下,评论全部加载完成,跳出循环
temp_h = check_h # 将获取的高度设置为初始高度
html = BeautifulSoup(driver.page_source, features="html.parser") # 使用解析器,解析获取的HTML内容
driver.close() # 关闭浏览器
return html
第二步:解析内容
需要导入的库:
import jieba # 分解词汇
import re # 正则表达式 进行文件匹配
import os # 创建目录
import requests # 下载图片
代码:
# 解析网页数据
def getData(baseurl, headers):
findAgree = re.compile(r'<button class="Button Button--plain" type="button">(.*?) 人赞同了该回答</button>') # 查找点赞人数的正则表达式
findContent = re.compile(r'<p data-pid=".*?">(.*?)</p>|<img class="origin_image zh-lightbox-thumb lazy" data-actualsrc="(.*?)"', re.S)
# 查找item文本内容和图片,里面的超链接,代码,和列表等内容也可以创建正则表达式筛选出来,我就没写了
data = [] # 用来存所有解析好的数据
html = gethtml(baseurl) # 调用获取上一步获取html代码的函数
if os.path.exists("image"):
shutil.rmtree("image")
os.mkdir("image") # 创建一个image文件夹,存爬取的图片,如果已经存在,就删除
for item in html.find_all('div', class_="List-item"): # 解析每一条,div里面class="List-item"的数据
datalist = [] # 用来存每一条解析完的数据
item = str(item) # 将item改为字符串格式
agree = re.findall(findAgree, item) # 点赞人数更改格式
if not agree: # 如果点赞人数列表为空就跳出(那是因为我爬取了几次发现最后一次的点赞人数都为空,会报错)
break
temp = agree[0].replace(",", "") # 去掉数字里面的","
if int(temp) < 5:
continue # 点赞数小于5 表示不是我们感兴趣的数据