python学习（二）

最新推荐文章于 2020-12-31 02:10:59 发布

置顶 via CHEng

最新推荐文章于 2020-12-31 02:10:59 发布

阅读量186

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/qq_44516149/article/details/104967551

版权

python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

查缺补漏：

判等

链接指路：https://www.cnblogs.com/bibi-feiniaoyuan/p/9549991.html

元组

链接指路：https://www.cnblogs.com/still-smile/p/11586452.html

网络数据的获取

r=requests.get(url)
r.status_code 若为200则成功，若为400，就没有成功，当然不止这两种。
有些网站会对请求的headers的user-agent进行检测，所以要先把headers信息传递给get函数的参数

headers = {"User-Agent": "Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.83 Safari/535.11"}
re = requests.get('https://www.zhihu.com', headers = headers)

网页数据解析

beautifulshop：对于html和XML文件可以方便的提取信息
比如：< span class=“short”>。。。。</ span>
提取出标签中的信息。

markup='<p class="title"><b>The Little Prince</b></p>'
soup=BeautifulSoup(markup,"lxml")
#BeautifulSoup对象有四种：Tag，BeautifulSoup，NavigableString和Comment
pattern=soup.find_all('span','short')
#span是标签名，short是属性，find_all返回的是一个列表，即pattern是一个包含多个string的列表，其中string即为span标签里面的内容

re正则表达式：适合处理具体的数据
比如：< span class=“user-star allstar50 rating” title=“力荐”>< /span>
提取出数字50.
[0-9]取0~9之间的任意一个数字
‘ . ’ 指除了换行符以外的任意一个字符
‘ *’ 指重复0次或者多次
（）代表分组
？匹配1次前面出现的字符

pattern_s=re.compile('<span class="user-star allstar(.*？)rating"')
#意思是获取两段字符串之间的一些内容

via CHEng

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python学习（二）

查缺补漏：判等链接指路：https://www.cnblogs.com/bibi-feiniaoyuan/p/9549991.html元组链接指路：https://www.cnblogs.com/still-smile/p/11586452.html
复制链接

扫一扫

专栏目录