python用自动化爬取网易云评论1

最新推荐文章于 2024-06-24 11:18:31 发布

itLaity

最新推荐文章于 2024-06-24 11:18:31 发布

阅读量234

点赞数

分类专栏：网络爬虫随笔集文章标签： selenium python 爬虫代码规范

ItLaity

本文链接：https://blog.csdn.net/duyun0/article/details/116759956

版权

网络爬虫随笔集专栏收录该内容

29 篇文章 4 订阅

订阅专栏

这个之前用requests尝试过很复杂不如用selenium自动化简单：

其中有很多小细节

import re
import webbrowser
from selenium.webdriver import Chrome
# from selenium.common.exceptions import
import jieba  # 中文分词库
import wordcloud  # 制作词云图的库
import imageio  # 操作图像的库
import time

# 安装模块：
# pip install -i https://pypi.douban.com/simple/ 模块名

# 中文分词库的使用（分词）


# 1.创建一个浏览器对象：
driver = Chrome()

driver.get('https://music.163.com/#/song?id=569213220')
driver.implicitly_wait(10)  # 隐式等待  浏览器渲染页面需要耗时 智能化等待
driver.maximize_window()  # 最大化浏览器

# 网页嵌套技术： iframe
driver.switch_to.frame(0)  # switch_to切换的意思   进入索引为0 的网页
# 下拉页面 ： js 代码  js是一门可以直接运行在浏览器中的语言
# documrnt.documentElement.xcrollHeight  获取页面的高度
js = 'document.documentElement.scrollTop  = document.documentElement.scrollHeight'  # 获取页面的最高
driver.execute_script(js)  # 滑倒最底部
# print(divs)
# print(len(divs))
# 解析
for click in range(10):
    divs = driver.find_elements_by_css_selector('.itm')
    for div in divs:
        cnt = div.find_element_by_css_selector('.cnt.f-brk').text  # 标签
        # print(cnt)
        cnt = cnt.replace('\n',' ')   # 替换 换行符
        cnt = re.findall('：(.*)',cnt)[0]
        with open('contend.txt' ,mode= 'a' ,encoding='utf-8')as  f:
            f.write(cnt+'\n')
    # 找到下一页进行点击
    driver.find_element_by_css_selector('.znxt').click()
    time.sleep(3)
print('OK!')
# 退出浏览器：
# driver.quit()

itLaity

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
python用自动化爬取网易云评论1

这个之前用requests尝试过很复杂不如用selenium自动化简单：其中有很多小细节import reimport webbrowserfrom selenium.webdriver import Chrome# from selenium.common.exceptions importimport jieba # 中文分词库import wordcloud # 制作词云图的库import imageio # 操作图像的库import time# 安装模块：# pi
复制链接

扫一扫