result=$(
wget -qO- 'http://www.kuchenpeter.at/mittagsmenue.html' |
sed -n '/
/,//p'
)
echo $result
5串,当你看下面的HTML代码,他们真的搞砸标签这个页面上的坏事。
Puszta-Kotelett mit Pommes-frites
###########################################
Hühnergeschnetzeltes "Asia" mit Reis
###########################################
Tafelspitz mit Apfelkren, Schnittlauchsauce und Röstinchen
Puten-Picatta "Milanese" mit Salat
Gebratener Dorsch mit Gemüse und Petersilkartoffeln
2017-01-30
axi92
+3
您应该使用一个HTML解析器,并与例如查询XPath,而不是使用正则表达式。 –
+0
在你的情况下,你需要去掉html标签;那么它将很容易提取你需要的信息。看到[this](http://stackoverflow.com/questions/3790681/regular-expression-to-remove-html-tags)和[this](http://stackoverflow.com/questions/11229831/regular-expression- to-remove-html-tags-from-a-string)知道如何使用正则表达式去除html标签 –
+1
这就是你想要的答案:http://stackoverflow.com/a/1732454/1705337 –