Python数据抓取（3） —抓取标题、时间及链接

最新推荐文章于 2024-03-15 10:15:45 发布

朱元禄

最新推荐文章于 2024-03-15 10:15:45 发布

阅读量3.7k

点赞数 4

分类专栏： python

本文链接：https://blog.csdn.net/jacky_zhuyuanlu/article/details/78840344

版权

python 专栏收录该内容

47 篇文章 5 订阅

订阅专栏

本次分享，jacky将跟大家分享如何将第一财经文章中的标题、时间以及链接抓取出来

（一）观察元素抓取位置

@数据分析-jacky

网页的原始码很复杂，我们必须找到特殊的元素做抽取，怎么找到特殊的元素呢？使用开发者工具检视每篇文章的分隔发现都以dl-item做区隔，我们可以知道可以透过dl-item提取一个一个的列表，既然知道我们要存储的位置在 dl-item下，我们就可以把dl-item下的结构拓展出来，我们接下来就可以根据不同的标签取得不同的内容，我们把一个个的dl-item列出来

（二）爬虫撰写

import requests
from bs4 import BeautifulSoup
response = requests.get('http://www.yicai.com/data/')
response.encoding = 'utf-8'
soup = BeautifulSoup(response.text,'html.parser')

for news in soup.select('.dl-item'):
    print(news.select('h3'))

@数据分析-jacky

去掉要抓取内容中的中括号［0］

for news in soup.select('.dl-item'):
    print(news.select('h3')[0])

取得里面的文字内容

for news in soup.select('.dl-item'):
    print(news.select('h3')[0].text)

@数据分析-jacky

抓取a 下的链接，发布来源及发布时间

for news in soup.select('.dl-item'):
    h3 = news.select('h3')[0].text
    a = news.select('a')[0]['href']
    h4 =news.select('h4')[0].text
    print(h4,h3,a)

@数据分析-jacky

朱元禄

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python数据抓取（3） —抓取标题、时间及链接

（一）抓取第一财经数据板块文章本次分享，jacky将跟大家分享如何将第一财经文章中的标题、时间以及链接抓取出来1.观察元素抓取位置网页的原始码很复杂，我们必须找到特殊的元素做抽取，怎么找到特殊的元素呢？使用开发者工具检视每篇文章的分隔发现都以dl-item做区隔，我们可以知道可以透过dl-item提取一个一个的列表，既然知道我们要存储的位置在 dl-item下，我们就可以把dl-item下
复制链接

扫一扫