python3爬取小说_python3下BeautifulSoup练习一（爬取小说）

最新推荐文章于 2021-08-10 09:53:43 发布

weixin_39789327

最新推荐文章于 2021-08-10 09:53:43 发布

阅读量70

点赞数

本文链接：https://blog.csdn.net/weixin_39789327/article/details/111441495

版权

python3爬取小说

from bs4 import BeautifulSoup

import urllib.request

import re

import os,time

def getUrls(url):

urls = []

#url = 'http://www.ahzww.net/0/178/'

req = urllib.request.Request(url)

page = urllib.request.urlopen(req)

html = page.read()

soup = BeautifulSoup(html,'html.parser')

i = 0

for k in soup.find_all(href=re.compile('.html')):

#print('www.qu.la'+k['href'],k.get_text())

if i != 0:

urls.append('http://www.ahzww.net'+k['href'])

i = i+1

return urls

def getContent(url):

#url = 'http://www.ahzww.net/0/178/355185.html'

headers = ('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11')

opener = urllib.request.build_opener()

opener.addheaders = [headers]

html = opener.open(url).read()

soup = BeautifulSoup(html,'html.parser')

content = soup.find('div',id='content')

title = soup.find('h1')

return title.get_text(),content.get_text()

if __name__ == '__main__':

urls = getUrls('http://www.ahzww.net/0/178/')

#print(urls)

fp = open("不负娇宠.txt","w")

for url in urls:

print(url)

title,content = getContent(url)

fp.write(title+"\n")

fp.write(content.replace('　　　　 ','\n')+"\n")

time.sleep(2)

fp.close()

print("Done")

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39789327

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

爬虫示例网站.zip_python 练习_python爬虫_usualksy_爬虫_爬虫练习网站

07-15

"wswp"可能代表"Web Spider Practice"，暗示这是一个爬虫练习项目，而"places"可能指的是练习爬取的是有关地点或地理信息的网站。"c573d29efa3a"通常是一种版本控制或项目识别的哈希值，它帮助我们跟踪文件的版本...

python抓取数据至mysql_python3爬取数据至mysql的方法

weixin_42371226的博客

01-20

本文实例为大家分享了python3爬取数据至mysql的具体代码，供大家参考，具体内容如下直接贴代码#!/usr/local/bin/python3.5# -*- coding:UTF-8 -*-from urllib.request import urlopenfrom bs4 import BeautifulSoupimport reimport datetimeimport randomim...

参与评论您还未登录，请先登录后发表或查看评论

BeautifulSoup中的.text方法和get_text()方法的区别

热门推荐

步步拾遗

09-23

8万+

转自https://www.crifan.com/python_beautifulsoup_string_vs_text/ 【背景】是别人问我的： BeautifulSoup 4中，soup.string和soup.text何有区别。【折腾过程】 1.去beautifulsoup的官网： bs3： http://www.crummy.com/software/Beautifu

python文件操作二

weixin_34050005的博客

11-15

1、常用函数： fileObject.read([size]) size为读取的长度，以byte为单位。如果不指定参数，表示一次性读取全部内容，以字符串形式返回，并且每一行结尾会有一个"\n"符号。代码示例1：with open("text.txt","r") as pf: content = pf.read() print content 结果...

2021年最全的Python爬虫学习笔记（上）

Python_kele的博客

08-10

1442

一、爬虫基础简介 1. 爬虫简介什么是爬虫：通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程 2. 爬虫合法性探究爬虫究竟是合法还是违法的？在法律中是不被禁止的具有违法风险善意爬虫 & 恶意爬虫爬虫带来的风险可以体现在如下两个方面：爬虫干扰了被访问网站的正常运营爬虫抓取了受到法律保护的特定类型的数据或信息如何在编写使用的过程中避免进入局子的厄运？时常优化自己的程序，避免干扰被访问网站的正常运行在使用，传播爬取到的数据时，审查抓..

Python爬虫爬取煎蛋网图片代码实例

09-18

作者提到自己在正则表达式和BeautifulSoup的使用上还不是特别熟练，因此他希望在未来能够通过更多的练习来提高。最终，爬取的图片将被保存到本地文件夹中。在保存时，代码会根据图片的URL来分割得到文件名，并以二...

安居客python3按城市抓取小区数据.zip

07-16

标题“安居客python3按城市抓取小区数据.zip”揭示了这个项目是使用Python3编程语言，通过网络爬虫技术来抓取安居客网站上的小区数据，并将其整理为CSV文件格式。这种做法常用于数据分析、市场研究或者房地产行业的...

一个月入门Python爬虫学习,轻松爬取大规模数据

09-20

- **实践项目**：选择一个简单的网站（如豆瓣电影），尝试爬取其中的数据，练习发送请求、解析页面、提取数据的基本流程。 ##### 2. 了解非结构化数据的存储 - **文件存储**：对于较小的数据集，可以使用CSV或JSON...

Python项目源码3_火车票查询.rar

04-19

《Python项目源码3_火车票查询》是一个典型的Python编程实践案例，主要涉及网络爬虫技术、数据分析以及可能的GUI应用。在这个项目中，开发者利用Python语言实现了对火车票信息的抓取、处理和展示，旨在帮助用户实时...

航空公司客户满意度数据转换与预测分析Power BI案例研究

11-16

内容概要：本文档介绍了航空公司的业务分析案例研究，涵盖两个主要部分：a) 使用SSIS进行数据转换，b) 利用RapidMiner进行预测分析。这两个任务旨在通过改善客户满意度来优化业务运营。数据来源包括多个CSV文件，如flight_1.csv、flight_2.csv、type.csv、customer.csv 和 address.csv。第一部分要求学生创建事实表、客户维度表和时间维度表，并描述整个数据转换流程。第二部分则需要利用RapidMiner开发两种不同的模型（如决策树和逻辑回归）来预测客户满意度，并完成详细的报告，其中包括执行摘要、预测分析过程、重要变量解释、分类结果、改进建议和伦理问题讨论。适合人群：适用于对数据科学和商业分析有一定基础的学生或专业人士。使用场景及目标：本案例研究用于教学和评估，帮助学员掌握数据转换和预测建模的技术方法，提高客户满意度和业务绩效。目标是通过实际操作加深对相关工具和技术的理解，并能够将其应用于实际业务中。其他说明：此作业占总评的40%，截止时间为2024年10月25日16:00。

课题设计-基于MATLAB平台的图像去雾处理+项目源码+文档说明+课题介绍+GUI界面

11-16

一、课题介绍现在我国尤其是北方城市，工业发达，废弃排放严重，这使得雾霾越来越厉害，让能见度极低。这严重影响了我们的交通系统，导航系统，卫星定位系统等，给人民出行，工作带来极大的不便利。目前市场上高清拍摄设备虽然可以让成像清晰点，但是造价高昂。如果有一套软件处理系统，可以实时地处理含雾的图像，让成像去雾化，让图像变得清晰，将会很受欢迎。该课题是基于MATLAB平台的图像去雾处理，配备一个人机交互GUI界面，可以选择全局直方图均衡化，Retinex算法，同态滤波，通过对比处理前后的图像的直方图，而直方图是一副图像各灰度值在0-256的分布个数的表，信息论已经整明，具有均匀分布直方图的图像，其信息量是最大的。二、算法介绍 ①全局直方图均衡化：通俗地理解就是，不管三七二十一，直接强行对彩色图像的R,G,B三通道颜色进行histeq均衡处理，然后进行三通道重组； ②Retinex算法：通俗地讲就是，分离R,G,B三通道，对每个通道进行卷积滤波。

微信支付V2版本的支付接口，java的SDK

11-16

微信支付V2版本的支付接口，java的SDK

ide-eval-resetter-2.1.14 无限试用插件

最新发布

11-16

一款IDEA好用的插件，适用于旗舰版，可以延长试用期限，你懂的！

电力系统继电保护整定及其应用-发电机组与变压器保护

11-16

内容概要：本文详细介绍了发电机组保护整定方法，讨论了发电机可能遇到的故障状态及相应的保护措施，包括定子绕组故障、转子绕组故障、过电流、过电压等情况，并提供了具体的保护配置。接着，对变压器常见故障进行了分类说明，并给出变压器的主保护和后备保护配置方案。文章进一步计算了不同短路点的短路电流，阐述了互感器的选择标准，并举例解释了纵联保护的应用和后备保护的作用。适合人群：电力系统工程师、继电保护技术人员及相关研究领域的学者。使用场景及目标：适用于发电厂和变电站的设计、维护和运行人员，旨在提高电力系统的安全性和稳定性。目标是确保电力系统关键设备的安全运行，防止故障的发生，减少事故造成的损失。其他说明：本文不仅提供了详细的理论分析，还包括了大量的数据计算和实例说明，有助于读者更好地理解和掌握继电保护的相关知识和技术。

基于C++开发的微商系统项目源码.zip

11-16

基于C++开发的微商系统项目源码使用技术：C++/Qt、Mysql、TCP/IP 软件架构三个大端：服务端、客户端（买家端）、业务端（卖家端） PS:需要连Mysql数据库才能正常使用，连接mysql时记得把用户、密码啥的改为自己的数据库信息

1503ANDH1503002016_20241116222825

11-16

1503ANDH1503002016_20241116222825

数理逻辑近世代数复习资料，思维导图部分

11-16

数理逻辑近世代数复习资料，思维导图部分

京东中台业务架构敏捷性方法 MotriDSP 落地实践.pdf

11-16

京东中台业务架构敏捷性方法 MotriDSP 落地实践.pdf

11-16

该资源内项目源码是个人的课程设计、毕业设计，代码都测试ok，都是运行成功后才上传资源，答辩评审平均分达到96分，放心下载使用！ ## 项目备注 1、该资源内项目代码都经过严格测试运行成功才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.md文件（如有），仅供学习参考, 切勿用于商业用途。

python爬取链家网_python - 爬虫入门练习爬取链家网二手房信息

05-27

好的，这是一个很不错的爬虫入门练习。首先，你需要安装 Python 的 requests 和 BeautifulSoup 库。安装方法可以在官方文档中找到。接下来，你需要分析链家网二手房信息的页面结构，找到需要爬取的数据。可以使用 ...