试验python爬取逐浪小说

原创 2015年11月18日 10:36:16

只是想试下用python爬网页,之前用米花,后来米花不知道怎么回事打不开了,就用的逐浪。


#coding:utf-8

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

import urllib,sys,urllib2,os
from bs4 import BeautifulSoup

IMAGE_DIR = '/home/cloud/temp/' #存放目录
if not os.path.exists(IMAGE_DIR):
    os.mkdir(IMAGE_DIR)


def get_book_without_db(url):
    """一边爬取一边写入,不用数据库保存"""
    soup = BeautifulSoup(request(url))
    title = (soup.find_all("title"))[0].string.split('_')[0] #文章名

    book_path = os.path.join(IMAGE_DIR, title)
    book = open(book_path, 'a+')
    i = 1
    for volume in soup.find_all('h2'):
        i += 1
        volume_name = volume.text
        print type(volume_name)
        book.write(str(volume_name) + '\n\n\n')
        for chapter in soup.find_all('ul')[i].find_all("li"):
            chapter_name = chapter.find('a').text
            book.write(str(chapter_name) + '\n')

            chapter_url = chapter.find('a').get('href')
            content_soup = BeautifulSoup(request(chapter_url))
            content = content_soup.find_all("p")[0].contents[0]
            book.write(str(content) + '\n\n')
    book.close()
    print '书籍路径: ', book_path


get_book_without_db('testurl')


其中,testurl是小说目录。

因为是自学的,代码中获取内容有些还是debug时看内存才写的,所以可能不规范。

另外,我爬取的文章内容是一段字符串,没有自动换行。百度没有查到,哪位知道的可否告知一下,文章内容该怎么自动换行?


注释:后来发现有个也是爬取逐浪的:http://www.oschina.net/code/snippet_1788589_48365

巧合啊,我是在优书网随便选的一个网站。不过此文好像也没有自动换行

相关文章推荐

Python爬取小说

Python爬取小说生成txt文档

python3.5爬虫完成笔趣阁小说的爬取

本文主要是利用python3.5完成了笔趣阁小说的爬虫程序存储章节txt到本地,方便阅读。...

Python3网络爬虫(七):使用Beautiful Soup爬取小说

转载请注明作者和出处:http://blog.csdn.net/c406495762 运行平台: Windows Python版本: Python3.x IDE: Sublime text3...

Python 爬取小说(诛仙)

爬虫正在学习中,感觉不能只看不动手, 于是,抓个小说试试手, 目前感觉正则表达式非常不熟悉, 主要是要用于匹配以及去除一些div br 等 标签存入txt中,一直在查资料。。。 ...

Python爬虫实战之使用Scrapy爬起点网的完本小说

一.概述 本篇的目的是用scrapy来爬取起点小说网的完本小说,使用的环境ubuntu,至于scrapy的安装就自行百度了. 二.创建项目 scrapy startprojec...
  • totcw
  • totcw
  • 2017年03月23日 15:54
  • 2593

Python 爬虫(获取小说)

以《笔趣阁》小说网站为例 小说的目录网站地址假如为:http://www.biquge.com/19_19272/ 那么,19_19272就是module参数 命令行运行时,需要这么做:python ...
  • wyansai
  • wyansai
  • 2016年10月14日 17:15
  • 3495

Python3网络爬虫(二):使用Beautiful Soup爬取小说

使用Beautiful Soup爬取小说

python爬虫爬取网络小说

因为以前喜欢看网络小说,就写了一只网络小说爬虫,放在这里以供记录。本次选用了速度较慢,同时比较基础的requests-bs4-re的技术路线。...
  • cellurs
  • cellurs
  • 2017年04月06日 00:07
  • 308

python爬取小说

1.首先我们选取要爬取一个小说网站2.分析他的搜索时的url我选取的是顶点小说网(http://www.23us.so/),这个网站搜索时的url是这样的 'http://zhannei.baidu....
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:试验python爬取逐浪小说
举报原因:
原因补充:

(最多只允许输入30个字)