查缺补漏:
判等
链接指路:https://www.cnblogs.com/bibi-feiniaoyuan/p/9549991.html
元组
链接指路:https://www.cnblogs.com/still-smile/p/11586452.html
网络数据的获取
r=requests.get(url)
r.status_code 若为200则成功,若为400,就没有成功,当然不止这两种。
有些网站会对请求的headers的user-agent进行检测,所以要先把headers信息传递给get函数的参数
headers = {"User-Agent": "Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.83 Safari/535.11"}
re = requests.get('https://www.zhihu.com', headers = headers)
网页数据解析
beautifulshop:对于html和XML文件可以方便的提取信息
比如:< span class=“short”>。。。。</ span>
提取出标签中的信息。
markup='<p class="title"><b>The Little Prince</b></p>'
soup=BeautifulSoup(markup,"lxml")
#BeautifulSoup对象有四种:Tag,BeautifulSoup,NavigableString和Comment
pattern=soup.find_all('span','short')
#span是标签名,short是属性,find_all返回的是一个列表,即pattern是一个包含多个string的列表,其中string即为span标签里面的内容
re正则表达式:适合处理具体的数据
比如:< span class=“user-star allstar50 rating” title=“力荐”>< /span>
提取出数字50.
[0-9]取0~9之间的任意一个数字
‘ . ’ 指除了换行符以外的任意一个字符
‘ *’ 指重复0次或者多次
( )代表分组
?匹配1次前面出现的字符
pattern_s=re.compile('<span class="user-star allstar(.*?)rating"')
#意思是获取两段字符串之间的一些内容