关闭

“新浪讀書”轉TXT

424人阅读 评论(0) 收藏 举报
wget -i list下載,用下面的腳本處理,即可得到純文本的圖書。

#!/bin/sh

# 處理“新浪讀書”下載的HTML,并轉為TXT。

# 文件名可能为UTF8,文本为GB

html2txt()
{
    
cat $
    
LC_ALL=zh_CN.GBK 
        sed 
-
            
-'/<div id=article>/,/正文底部文字广告/p' 
            
-'/<!--正文内容开始-->/,/<!--正文内容结束-->/p' -'/正文页画中画/p' |
    
LC_ALL=zh_CN.GBK    sed 
            
-'/^[ /t; ]*$/d' 
            
-'/    连载:/d' 
            
-'s/  //r/n  /g' -'s/<[^>]*>//g' -'s/&nbsp//g' 
            
-'/<!--/,/-->/d' 
            
-'s//[上一篇/]/|/[返回/]/|/[返回目录/]/|/[下一篇/]/|上一页/|下一页/|/[/]/|/[[0-9]/]//g' 
            
-'/^[ /t/n;]*/r$/D' |
    
LC_ALL=zh_CN.GBK grep -'http://book.sina.com.cn'

}

for 
i in `find . -name "?.shtml" | sort`; do
    
#echo $i
    
html2txt $i
done

for i in `find . -name "??.shtml" | sort`; do
    
#echo $i
    
html2txt $i
done

for i in `find . -name "???.shtml" | sort`; do
    
#echo $i
    
html2txt $i
done 
0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:4080次
    • 积分:82
    • 等级:
    • 排名:千里之外
    • 原创:4篇
    • 转载:0篇
    • 译文:0篇
    • 评论:2条
    文章分类
    文章存档