Python爬虫笔记v1.0

重新捡起Python!
想拔下来B站更新的综艺,找了找一年前写的代码发现没有注释真的要死要死,从0.1开始!
本文记录了一些常用的语法,用于本弱渣学习。

ctrl+alt+l可以用于格式化


- with open as

with open('/path/to/file', 'r') as f:
    print(f.read())

相当于

try:
    f = open('/path/to/file', 'r')
    print(f.read())
finally:
    if f:
        f.close()

理解为 with open as事实上是包括了f.read()和f.close()两个操作。


- from XX in zip(XX):

for title, image, review, price, star in zip(titles, images, reviews, prices, stars): 

zip函数接受任意多个(包括0个和1个)序列作为参数,返回一个tuple列表。


- sep

sep是python3特有的。。。所以一开始用python2.7跑一直报错,不知道什么问题,换成python3.7就可以了。但python3.7版本号太高,导致一些库安装起来十分麻烦。。就换回了python2.7。


- proxies

可以设置代理。跑多了ip容易被封。。。
如果遇到lxml解析不出来,试一试多半是跑着跑着被禁掉了。。

requests.get(url, cookies = cookie,proxies=proxies)


- 未解决的问题

下面两行代码用与匹配图片,不知道为什么在html中找到的这个path,在匹配的时候第一个会匹配失败,是个很玄学的问题

soup.find_all('a',href=re.compile(r'^/http:XXXX/mblog/oripic',re.I))
soup.find_all('a',href=re.compile(r'^/mblog/oripic{1}',re.I))
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值