用python 爬取百度百科内容-使用python爬取小说全部内容

最新推荐文章于 2024-04-11 14:49:00 发布

weixin_37988176

最新推荐文章于 2024-04-11 14:49:00 发布

阅读量233

点赞数

爬取代码为import urllib.request

from bs4 import BeautifulSoup

#coding: utf-8

class xiaoShuo():

def __init__(self,url,parLabelValue,parLabelType,parLabel,clildLabelValue,clildLabelType,clildLabel,enc):

self.url = url;

self.parLabelValue = parLabelValue;

self.parLabelType = parLabelType;

self.enc=enc;

self.parLabel = parLabel;

self.clildLabelValue = clildLabelValue;

self.clildLabelType = clildLabelType;

self.clildLabel = clildLabel;

def getUrlContent(self):

response = urllib.request.urlopen(self.url);

html = response.read().decode(self.enc);

pageNode = BeautifulSoup(html, 'html.parser')

iterms = pageNode.find_all(self.parLabel,{self.parLabelType:self.parLabelValue})

for i in range(len(iterms)):

tagA = iterms[i].select("a");

for j in range(len(tagA)):

# print("%s: %s"%(tagA[j].get_text(),tagA[j].get("href")))

content = self.getXiaoShuoContent(self.url,self.clildLabel,self.clildLabelValue,self.clildLabelType,self.enc)

print(content)

def getXiaoShuoContent(self,url,childLabel,childLabelValue,childLabelType,enc):

response = urllib.request.urlopen(url);

html = response.read().decode(enc);

pageNode = BeautifulSoup(html, 'html.parser')

iterms = pageNode.find_all(childLabel, {childLabelType: childLabelValue})

content = "";

for i in range(len(iterms)):

content = iterms[i].get_text(),

return content;

def writeTofile(self,fileName,content):

try:

with open("%s.txt" %(fileName), "w") as f: # 格式化字符串还能这么用！

for i in content:

f.write(i)

except:

print("写入错误")

a = xiaoShuo("https://www.szzyue.com/dushu/11/11255/","L","class","td","contents","id","dd","gbk");

html = a.getUrlContent();

# print(html)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_37988176

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

用python 爬取百度百科内容-爬虫实战(一) 用Python爬取百度百科

weixin_37988176的博客

11-01

1818

最近博主遇到这样一个需求：当用户输入一个词语时，返回这个词语的解释我的第一个想法是做一个数据库，把常用的词语和词语的解释放到数据库里面，当用户查询时直接读取数据库结果但是自己又没有心思做这样一个数据库，于是就想到了百度百科这么一个现成的 “数据库”下面我们就通过 urllib 和 xpath 来获取百度百科的内容1、爬取百度百科百度百科是一个静态网页，爬取起来很简单，而且请求参数可以直接放在 UR...

python爬取小说内容

imakeithappen的博客

04-02

495

具备了基础的Python 爬虫认识，下面来练习一个简单的爬虫–爬取小说文本。首先从小说主页获取到小说每一章节的网址，构建一个网址列表随机找一章内容,然后进行内容提取,编写成一个函数对每一个网址进行遍历，调用上面写好的函数下载网页中小说部分的标题和小说内容每下载一次就将小说内容保存到一个txt文件中去获取小说每一章网址，构建一个列表 import requests from bs4 i...

参与评论您还未登录，请先登录后发表或查看评论

python爬取小说代码_Python scrapy爬取小说代码案例详解

weixin_39988779的博客

11-23

246

scrapy是目前python使用的最广泛的爬虫框架架构图如下解释：Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。Downloader（下载器）：负责下载S...

python类百度百科_Python抓取百度百科数据

weixin_39948309的博客

11-22

189

抓取策略确定目标：确定抓取哪个网站的哪些页面的哪部分数据。本实例抓取百度百科python词条页面以及python相关词条页面的标题和简介。分析目标：分析要抓取的url的格式，限定抓取范围。分析要抓取的数据的格式，本实例中就要分析标题和简介这两个数据所在的标签的格式。分析要抓取的页面编码的格式，在网页解析器部分，要指定网页编码，然后才能进行正确的解析。编写代码：在网页解析器部分，要使用到分析目标得到...

python 爬取百度百科

菜鸟的博客

02-08

1447

import re from urllib import request from urllib.parse import quote from bs4 import BeautifulSoup as sp header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gec...

python爬取百度百科的页面

04-05

本教程将详细介绍如何使用Python的BeautifulSoup和urllib2库来爬取百度百科的页面内容。首先，`urllib2`是Python标准库中的一个模块，用于处理URL相关的任务，包括打开网络连接、发送HTTP请求等。在爬虫中，我们...

python爬取100个百度百科页面信息

04-29

本项目“python爬取100个百度百科页面信息”是一个初阶的实例，旨在教授如何使用Python来抓取并处理网页数据。首先，我们需要了解Python中的几个关键库： 1. **requests**: 这是一个用于发送HTTP请求的库，通过它...

教你用python3根据关键词爬取百度百科的内容

12-25

好了，开始说爬百度百科的事。这里设定的需求是爬取北京地区n个景点的全部信息，n个景点的名称是在文件中给出的。没有用到api，只是单纯的爬网页信息。 1、根据关键字获取url 由于只需要爬取信息，而且不涉及交互...

python爬虫--爬取百度百科字条python2和python3版本

11-02

一个实战性项目，python入门爬取百度百科python词条相关的1000个词条也可以直接在我的博客里面查看：http://blog.csdn.net/qiqiyingse/article/details/51798833 解压密码：123 主要是之前写的内容因为百度百科的...

python简单爬虫爬取百度百科python词条网页

reblue520的专栏

06-25

875

目标分析：目标：百度百科python词条相关词条网页 - 标题和简介入口页：https://baike.baidu.com/item/Python/407313 URL格式： - 词条页面URL：/item/xxxx 数据格式： - 标题： <dd class="lemmaWgt-lemmaTitle-title"><h1>***</h1></...

利用python做的一个简单爬虫程序，可获取python百度百科所有链接内容并以网页的内容显示

07-17

利用python做的一个简单爬虫程序，可获取python百度百科所有链接内容并以网页的内容显示

利用Python爬取百度百科词条

10-23

利用Python爬取百度百科网络爬虫词条以及相关词条的标题、摘要和链接等信息

使用python爬取小说

最新发布

2201_75604341的博客

04-11

818

如果对Python感兴趣的话，可以试试我的学习方法以及相关的学习资料不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~给大家准备的学习资料包括但不限于：Python 环境、pycharm编辑器/永久激活/翻译插件python 零基础视频教程Python 界面开发实战教程Python 爬虫实战教程Python 数据分析实战教程。

python爬取小说内容_爬取小说（步骤四）python

weixin_39931390的博客

11-20

198

假设各位老哥已经安装好了bs4 requests这些库了这个小说是随便挑的，各位也就不用太介意（仅供各位学习）python3 实现，网上用python2做爬虫的太多了，但用python3的还是比较少虽说步骤四是脱胎于之前的三个步骤，但确实为了更进一步而做的一点小突破这步骤四中，将会爬取小说对对应的目录链接。通过步骤四中寻找到的那些url来对逐步访问，获取txt并写入（这个在之前也都讲过了）没有...

[Python & 爬虫]爬取百度百科相关内容

Baby_Qi的博客

06-27

513

想找一下百度百科的API结果没有找到，据说是不开放！需要用好像要申请？？？无奈之下自己写了一个爬虫，爬取百度百科的相关内容。应用到QQ机器人的效果如下图：黑框程序效果：黑框程序源码如下： from selenium import webdriver from lxml import html from PIL import Image from selenium.webdriver.support.select import Select from lxml import etree impo

python爬去百度百科词条_Python爬虫入门学习实践——爬取小说

weixin_39707536的博客

01-13

102

本学期开始接触python，python是一种面向对象的、解释型的、通用的、开源的脚本编程语言，我觉得python最大的优点就是简单易用，学习起来比较上手，对代码格式的要求没有那么严格，这种风格使得我在编写代码时比较舒适。爬虫作为python的最为吸引我兴趣的一个方面，在学习之后可以帮助我们方便地获取更多的数据源，从而进行更深层次更有效的数据分析，获得更多的价值。Python爬虫入门学习实践——爬...

用python爬取小说的总结_使用python爬取小说全部内容

weixin_33060757的博客

01-30

643

爬取代码为importurllib.requestfrombs4importBeautifulSoup#coding:utf-8classxiaoShuo():def__init__(self,url,parLabelValue,parLabelType,parLabel,clildLabelValue,clildLabelType,clildLabel,enc):self.url...

python爬取百度百科内容

08-29

Python可以用于爬取百度百科的内容。有一本实践技巧的书籍提供了详细的指导[1]。在爬取百度百科的过程中，我们可以设置一个目标，比如爬取1000条词条，并将这些词条的URL地址输出，并将词条的相关信息（URL、标题、...