Datawhale爬虫组队学习Task 04

最新推荐文章于 2024-08-15 01:55:01 发布

李伟fbrcn

最新推荐文章于 2024-08-15 01:55:01 发布

阅读量182

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_37388706/article/details/105801439

版权

爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

爬取腾讯新闻
1.了解ajax加载
2.通过chrome的开发者工具，监控网络请求，并分析
3.用selenium完成爬虫:

用selenium爬取https://news.qq.com/ 的热点精选

import time
import random
from selenium import webdriver
from lxml import etree

driver = webdriver.Chrome()
driver.get('https://news.qq.com/')

# 因为是随机滑动，所以无法控制爬取的条数
for i in range(20):
    height = random.randint(800,1000)
    driver.execute_script(f'window.scrollBy(0,{height})')
    time.sleep(random.random()+0.2) #[0.2,1.2)

html = driver.page_source
tree = etree.HTML(html)
infos = tree.xpath('//ul[@class="list"]/li/div[@class="detail"]/h3/a')

infolist = []
count = 0

for i,info in enumerate(infos):
    title = info.xpath('text()')[0]
    href = info.xpath('@href')[0]
    # print(i+1,title,href)
    infolist.append([i+1,title,href])

# 保存为csv
import pandas as pd
name = ['序号','新闻标题','新闻链接']
# 多于50条只保存前50条
try:
    df = pd.DataFrame(columns=name, data=infolist[:50])
except:
    df = pd.DataFrame(columns=name, data=infolist)

# 注意此处的编码，不设置会出现乱码
df.to_csv('腾讯新闻热点.csv',index=False,encoding='utf_8_sig')
df

在这里插入图片描述

李伟fbrcn

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Datawhale爬虫组队学习Task 04

爬取腾讯新闻1.了解ajax加载2.通过chrome的开发者工具，监控网络请求，并分析3.用selenium完成爬虫:用selenium爬取https://news.qq.com/ 的热点精选import timeimport randomfrom selenium import webdriverfrom lxml import etreedriver = webdriv...
复制链接

扫一扫

专栏目录