python学习(二)

查缺补漏:

判等

链接指路:https://www.cnblogs.com/bibi-feiniaoyuan/p/9549991.html

元组

链接指路:https://www.cnblogs.com/still-smile/p/11586452.html

网络数据的获取

r=requests.get(url)
r.status_code 若为200则成功,若为400,就没有成功,当然不止这两种。
有些网站会对请求的headers的user-agent进行检测,所以要先把headers信息传递给get函数的参数

headers = {"User-Agent": "Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.83 Safari/535.11"}
re = requests.get('https://www.zhihu.com', headers = headers)

网页数据解析

beautifulshop:对于html和XML文件可以方便的提取信息
比如:< span class=“short”>。。。。</ span>
提取出标签中的信息。

markup='<p class="title"><b>The Little Prince</b></p>'
soup=BeautifulSoup(markup,"lxml")
#BeautifulSoup对象有四种:Tag,BeautifulSoup,NavigableString和Comment
pattern=soup.find_all('span','short')
#span是标签名,short是属性,find_all返回的是一个列表,即pattern是一个包含多个string的列表,其中string即为span标签里面的内容

re正则表达式:适合处理具体的数据
比如:< span class=“user-star allstar50 rating” title=“力荐”>< /span>
提取出数字50.
[0-9]取0~9之间的任意一个数字
‘ . ’ 指除了换行符以外的任意一个字符
‘ *’ 指重复0次或者多次
( )代表分组
?匹配1次前面出现的字符

pattern_s=re.compile('<span class="user-star allstar(.*?)rating"')
#意思是获取两段字符串之间的一些内容
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值