“新浪讀書”轉TXT

wget -i list下載,用下面的腳本處理,即可得到純文本的圖書。

#!/bin/sh

# 處理“新浪讀書”下載的HTML,并轉為TXT。

# 文件名可能为UTF8,文本为GB

html2txt()
{
    
cat $
    
LC_ALL=zh_CN.GBK 
        sed 
-
            
-'/<div id=article>/,/正文底部文字广告/p' 
            
-'/<!--正文内容开始-->/,/<!--正文内容结束-->/p' -'/正文页画中画/p' |
    
LC_ALL=zh_CN.GBK    sed 
            
-'/^[ /t; ]*$/d' 
            
-'/    连载:/d' 
            
-'s/  //r/n  /g' -'s/<[^>]*>//g' -'s/&nbsp//g' 
            
-'/<!--/,/-->/d' 
            
-'s//[上一篇/]/|/[返回/]/|/[返回目录/]/|/[下一篇/]/|上一页/|下一页/|/[/]/|/[[0-9]/]//g' 
            
-'/^[ /t/n;]*/r$/D' |
    
LC_ALL=zh_CN.GBK grep -'http://book.sina.com.cn'

}

for 
i in `find . -name "?.shtml" | sort`; do
    
#echo $i
    
html2txt $i
done

for i in `find . -name "??.shtml" | sort`; do
    
#echo $i
    
html2txt $i
done

for i in `find . -name "???.shtml" | sort`; do
    
#echo $i
    
html2txt $i
done 
阅读更多
文章标签: html list
个人分类: Linux/POSIX
上一篇移动硬盘过热水冷系统
下一篇理解swig和py++的區別
想对作者说点什么? 我来说一句

思考的技術-個人讀書心得

2008年11月12日 468KB 下载

android安卓本地电子书毕设源码

2015年12月19日 14.14MB 下载

java编程思想读书笔记

2010年07月29日 213KB 下载

file dialog

2010年06月11日 89KB 下载

BCB讀圖轉灰階

2013年05月21日 974KB 下载

image_process

2010年10月21日 5KB 下载

天皓图书管理系统 V5.50 单机版

2010年03月23日 5.84MB 下载

the war of currency

2008年09月11日 1.68MB 下载

没有更多推荐了,返回首页

关闭
关闭