python古诗代码案例_【Python爬虫】爬取古诗词，按类别采集

最新推荐文章于 2023-12-29 21:16:23 发布

weixin_39789370

最新推荐文章于 2023-12-29 21:16:23 发布

阅读量613

点赞数

文章标签： python古诗代码案例

这篇博客展示了如何使用Python爬虫从古诗网抓取不同风格的诗词，包括获取每个风格的页面链接，解析HTML提取诗词信息，并将结果保存到文本文件中。主要涉及BeautifulSoup库和requests模块。

摘要由CSDN通过智能技术生成

[Python] 纯文本查看复制代码from bs4 import BeautifulSoup

import requests

import json

import re

import time

def get_one_page(url):

try:

headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"

}

response = requests.get(url, headers=headers)

if response.status_code == 200:

response.encoding = "UTF-8"

return response.text

except requests.ConnectionError:

return None

def choice_jiekou(): # 抓取每个风格的地址

URL = "https://www.gushiwen.org/shiju/xiejing.aspx"

html = requests.get(URL).text

soup = BeautifulSoup(html, 'lxml')

gushi_1 = soup.find_all("div", {"class":"cont"})

raws = []

for gushi in gushi_1:

gushi = gushi.fin

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39789370

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python输出古诗词_python爬虫——爬取古诗名句

weixin_39611510的博客

11-26

955

一. 概要1.通过python爬虫循环爬取古诗词网站古诗名句2.落地到本地数据库二. 页面分析首先通过firedebug进行页面定位：其次源码定位：最终生成lxml etree定位div标签源码：response = etree.HTML(data)for row in response.xpath('//div[@class="left"]/div[@class="sons"]/div[@cla...

python输出古诗词_python爬虫——爬取古诗词

weixin_39717029的博客

11-26

755

一. 概要1.通过python爬虫循环爬取古诗词网站唐诗宋词2.落地到本地数据库二. 页面分析首先通过firedebug进行页面定位：其次源码定位：最终生成lxml etree定位div标签源码：# 通过 lxml进行页面分析response = etree.HTML(data)# div层定位for row in response.xpath('//div[@class="left"]/div...

参与评论您还未登录，请先登录后发表或查看评论

python爬虫古诗词

06-18

python爬虫古诗文网站

Python 爬取诗词分析古人最喜欢用的诗词

Smile_Mr的博客

02-19

7811

本章所讲内容： 1、5分钟快速了解爬虫概念 2、beautifulsoup 匹配原则 3、wordcloud 使用详情实战：爬取中国唐诗宋词，体验文人雅士最常用的词语！ 1、5分钟快速了解爬虫爬虫（spider：网络蜘蛛）:是一个用脚本代替浏览器请求服务器获取服务器资源的程序。数据收集（数据分析、人工智能）模拟操作（测试、数据采集）接口操作（自动化） ...

python爬虫入门实践--爬取古诗文网站

gaotiezi_123的博客

10-30

1371

href在 class=book dl的标签下.

使用PyCharm编写Scrapy爬虫程序，爬取古诗词网站

欢迎来到我的小家

11-25

7844

有两种执行Scrapy爬虫的方法，第一种是在Terminal窗口中输入命令“scrapy crawl poemSpider”，然后回车运行，等待几秒钟后即可完成数据的爬取。在Terminal窗口输入命令“cd poemScrapy”，进入对应的爬虫工程中，再输入命令“scrapy genspider poemSpider gushiwen.cn”，这时，在spiders目录下会出现一个新的Python文件poemSpider.py，该文件就是我们要编写爬虫程序的位置。同级目录下生成的data.txt文件。

python古诗代码案例_用python实现古诗词横板竖版显示【二维列表的使用】

weixin_39926103的博客

11-21

2773

案例展示用python实现古诗词横竖两种版本效果图实现的代码如下：#古诗顺序倒叙读str1="千山鸟飞绝"str2="万尽人踪灭"str3="孤舟梭立翁"str4="独钓寒江雪"verse=[list(str1),list(str2),list(str3),list(str4)]#定义一个二维列表print("\n---横板----\n")for iin range(4):#循环古诗的每一行for...

python爬虫爬取古诗词内容，并存入mysql

qq_36344346的博客

10-26

1985

python爬虫爬取古诗词内容，并存入mysql 爬取结果展示: 代码如下: from urllib import request import re,os import pymysql import time base_url = "https://so.gushiwen.org" shiwen_url='https://www.gushiwen.org/shiwen/' def get...

用正则表达式从备份的自选集文稿里提取诗词目录

myhrrjava的博客

01-13

915

用正则表达式从备份的自选集文稿里提取诗词目录 1、合并标题上面的空行为一行。文稿中每个诗词标题上面有的有一个空行，有的有两个空行，要保证标题上面有一个空行，如果有两个以上的空行，请将多余的空行删除。 2、删除每一行行首的空格。用EmEditor打开文本，点“搜索”/“替换”，在弹出的“替换”对话框中的“查找”栏里输入“^\s*”,在...

python古诗代码案例_python 简单抓取所有古诗词 按分类排列

weixin_39702559的博客

11-21

1123

from bs4 importBeautifulSoupimportrequestsimportjsonimportreimporttimedefget_one_page(url):try:headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ...

Python GUI项目：古诗词鉴赏系统代码

04-24

python古诗词生成

12-25

python古诗词生成

古诗词app应用源码.zip

07-10

本项目是一个古诗词的app应用源码，后台使用的是基于thinkphp自己开发的webservice接口，不过作者没有一起分享出来。如果huangxulei看到这个页面并且方便的话希望您可以把服务端和数据库打包到百度云跟大家一起在评论里分享一下。

用LSTM生成古诗-代码

you_jinpeng的博客

10-26

4684

古诗生成—用LSTM 太懒了，数据集明天再传整体流程完整代码： import numpy as np #from collections import Counter from tensorflow import keras import tensorflow as tf import numpy as np import matplotlib.pyplot as plt from tens...

Python的Scrapy框架爬取诗词网站爱情诗送给女友

baidu_37075689的博客

05-01

1335

前言我们将使用Scrapy框架爬取诗词网站的古代爱情诗，Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。

小程序源代码 古诗词

LILAIQUN博客

01-27

3372

小程序源代码 古诗词 1.代码地址 https://gitee.com/tonygeli/open_gushici 2.小程序预览 3.部分截图 4.项目结构 . ├── README.md ├── project.config.json // 项目配置文件 ├── cloudfunctions | 云环境 // 存放云函数的目录 │ ├── login

C++古诗《九月九日忆山东兄弟》代码

最新发布

wmy15152878506的博客

12-29

690

【代码】C++古诗《九月九日忆山东兄弟》代码。

Scrapy入门：爬取古诗文

AI路漫漫

04-23

1356

从入门到放弃，，，太难了吧

古诗+代码 = 绝配

sfwwdd的博客

09-11

957

IO读写操作比较适合使用多线程，虽然python的多线程是伪多线程，但是CPU快速的在读取和写入之间切换，边爬取边写入，会比逐条进行读写的速度快。 import re import requests import csv from queue import Queue import threading class POSpider(threading.Thread): headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) Apple

python爬虫爬取古诗词网

07-28

爬虫是一种按照一定规则，自动抓取万维网信息的程序或者脚本。它可以通过定义好的规则，自动抓取网络上的信息，并对抓取下来的数据进行筛选和提取，从而获得我们需要的信息。爬虫并不是Python的专利，使用其他编程语言也可以实现爬虫功能，但Python提供了许多方便的库，使得开发爬虫变得更加简单。\[1\] 在爬取古诗词网的例子中，使用了Python的requests库和BeautifulSoup库来进行网页请求和解析。首先，通过发送HTTP请求获取网页的HTML内容，然后使用BeautifulSoup库对HTML进行解析，提取出需要的信息，如标题、朝代、作者和内容。最后，将提取的信息存储到一个列表中，并将列表写入一个JSON文件中。\[2\] 另外，还可以使用XPath解析HTML内容。XPath是一种用于在XML和HTML文档中进行导航和提取信息的语言。在这个例子中，使用了Python的requests库和lxml库来进行网页请求和解析。通过XPath表达式，可以直接定位到需要的元素，并提取出相应的信息，然后将提取的信息存储到一个列表中，并将列表写入一个JSON文件中。\[3\] 总结来说，Python爬虫可以通过发送HTTP请求获取网页内容，然后使用相应的库对网页进行解析，提取出需要的信息，并进行存储和处理。这样就可以实现对古诗词网或其他网站的信息进行爬取。 #### 引用[.reference_title] - *1* [Python爬虫（一）——爬取古诗文网，初识什么是爬虫](https://blog.csdn.net/u014663232/article/details/103459450)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [python爬虫入门_3种方法爬取古诗文网站](https://blog.csdn.net/purvispanwu/article/details/106849214)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]