“新浪讀書”轉TXT

最新推荐文章于 2024-09-23 17:12:42 发布

mrkissinger

最新推荐文章于 2024-09-23 17:12:42 发布

阅读量631

点赞数

分类专栏： Linux/POSIX 文章标签： html list

本文链接：https://blog.csdn.net/mrkissinger/article/details/1784444

版权

Linux/POSIX 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

wget -i list下載，用下面的腳本處理，即可得到純文本的圖書。

#!/bin/sh 
 
# 處理“新浪讀書”下載的HTML，并轉為TXT。 
 
# 文件名可能为UTF8，文本为GB 
 
html2txt() 
{ 
    cat $1 |  
    LC_ALL=zh_CN.GBK  
        sed -n  
            -e '/<div id=article>/,/正文底部文字广告/p'  
            -e '/<!--正文内容开始-->/,/<!--正文内容结束-->/p' -e '/正文页画中画/p' | 
    LC_ALL=zh_CN.GBK    sed  
            -e '/^[ /t;　]*$/d'  
            -e '/    连载:/d'  
            -e 's/　　//r/n　　/g' -e 's/<[^>]*>//g' -e 's/&nbsp//g'  
            -e '/<!--/,/-->/d'  
            -e 's//[上一篇/]/|/[返回/]/|/[返回目录/]/|/[下一篇/]/|上一页/|下一页/|/[/]/|/[[0-9]/]//g'  
            -e '/^[ /t/n;]*/r$/D' | 
    LC_ALL=zh_CN.GBK grep -v 'http://book.sina.com.cn' 
 
} 
 
for i in `find . -name "?.shtml" | sort`; do 
    #echo $i 
    html2txt $i 
done 
 
for i in `find . -name "??.shtml" | sort`; do 
    #echo $i 
    html2txt $i 
done 
 
for i in `find . -name "???.shtml" | sort`; do 
    #echo $i 
    html2txt $i 
done