非中文:
[^\u4E00-\u9FA5]+
提取网页content:
<meta([^>]*?)(keywords|description|KEYWORDS|DESCRIPTION).*?content="?(?<content>[^">]+)
去除标签:
<title[^>]*>.*?</title>|<script[^>]*>.*?</script>|<style[^>]*>.*?</style>|<!--.*?-->|&(#*)\w+;|\s+|<[^>]*>
提取网页编码:
<meta([^>]*?)charset\s*=\s*(?<charset>[^">]+)