#完整程序如下:
importrequestsimportredefgetHTMLText(url):try:
r=requests.get(url)
r.raise_for_status()
r.encoding=r.apparent_encodingreturnr.textexcept:return ''
defprintAPPName(html):try:
pattern= re.compile(r'{"im:name":{"label":(.*?)}, "rights"', re.S)#如果不使用re.S参数,则只在每一行内进行匹配,如果一行没有,就换下一行重新开始,不会跨行。
#而使用re.S参数以后,正则表达式会将这个字符串作为一个整体,将“\n”当做一个普通的字符加入到这个字符串中,在整体中进行匹配
APPName =re.findall(pattern, str(html))return 'APPName:' +str(APPName)except:return ''
deffillUnivlist(titles, comments, stars, html):try:
pattern= re.compile(r'"title":{"label":(.*?)}, "content"', re.S) #提取标题
nbaInfo = re.findall(pattern, str(html)) #提取title
#findStr = '"title":{"label":'