使用一条命令抓取一本小说,努力两天,终于成功了
curl "http://www.23hh.com/book/1/1019/"|iconv -c -f gbk -t utf8 |sed 's/"/\n/g'|grep -P '^\d+\.html'|awk '{if(NR>0){print "http://www.23hh.com/book/1/1019/"$0}}'|while read l;do curl $l 2>/dev/null|iconv -c -fgbk -tutf8|sed -n -e '2p' -e'15p'|sed -e 's/<[^>]*>/\n/g' -e 's/ / /g';done > data.txt