python爬虫编程100例_小羊学编程之Python爬虫实例

weixin_39884832

于 2020-11-22 12:39:04 发布

阅读量907

点赞数

文章标签： python爬虫编程100例

Python爬虫学习了一些时间，今天看到某网的文章，平时只是一部分一部分复制粘贴，有时甚至不让复制。于是想利用Python爬虫下载文章保存到本地。哈哈。为了便于学习理解，直接上代码加注释。重点学习稳中有降模块的用法。

from urllib.request import urlopen

from bs4 import BeautifulSoup #Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库

import html5lib #html5lib 是一个 Ruby和 Python用来解析 HTML文档的类库,支持HTML5

import time # Python time时间模块

import os

import requests #requests是python的一个HTTP客户端库

from time import sleep #,使用sleep函数可以让程序休眠延时。

def Download_Novel(html): #定义一个下载文章函数。

bsObj=BeautifulSoup(html,'html5lib') #利用BeautifulSoup析html页面

chapter=bsObj.find("div",{"class","read-content j_readContent"}) #获取文章内容

title=bsObj.find("",{"class","j_chapterName"}) #获取文章标题。

print (chapter.get_text()) #打印出文章内容。

print (title) #打印出文章标题。

fo=open("d:/001.txt","a") #打开文件

fo.write(chapter.get_text())#写入文件

fo.close #close()方法用于关闭一个已打开的文件

bsoup=bsObj.find("a",{"id":"j_chapterNext"}) #获取下一章节文章内容

html2="http:"+bsoup.get('href')+""#获取下一章节文章URL

return (urlopen(html2))

html=urlopen("https://xxxxxxxxxx/chapter/5889870403237101/15810501355231395")

i=1

while(i<10): #下载章节数目

html=Download_Novel(html)

i=i+1

start = time.time() #程序运行开始时间

Download_Novel(html)

sleep(1) #让程序延时

c = time.time() - start #程序运行结束时间

print('保存文章结束，运行共耗时:%0.2f'%(c))

u=2790307067,42688627&fm=173&app=25&f=JPEG?w=591&h=483&s=4C02E31B191E44CC46C5A1D0020010B3

运行结果如下图：

u=4247060264,2376780211&fm=173&app=25&f=JPEG?w=593&h=249&s=8422B11984C04CE20049C0CC0300C0B2

文件内容保存到D盘的001.txt文件中。

文中不妥之处请朋友们指正！谢谢

weixin_39884832

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫编程100例_小羊学编程之Python爬虫实例

Python爬虫学习了一些时间，今天看到某网的文章，平时只是一部分一部分复制粘贴，有时甚至不让复制。于是想利用Python爬虫下载文章保存到本地。哈哈。为了便于学习理解，直接上代码加注释。重点学习稳中有降模块的用法。from urllib.request import urlopenfrom bs4 import BeautifulSoup #Beautiful Soup 是一个可以从HT...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。