重新捡起Python!
想拔下来B站更新的综艺,找了找一年前写的代码发现没有注释真的要死要死,从0.1开始!
本文记录了一些常用的语法,用于本弱渣学习。
ctrl+alt+l可以用于格式化
- with open as
with open('/path/to/file', 'r') as f:
print(f.read())
相当于
try:
f = open('/path/to/file', 'r')
print(f.read())
finally:
if f:
f.close()
理解为 with open as事实上是包括了f.read()和f.close()两个操作。
- from XX in zip(XX):
for title, image, review, price, star in zip(titles, images, reviews, prices, stars):
zip函数接受任意多个(包括0个和1个)序列作为参数,返回一个tuple列表。
- sep
sep是python3特有的。。。所以一开始用python2.7跑一直报错,不知道什么问题,换成python3.7就可以了。但python3.7版本号太高,导致一些库安装起来十分麻烦。。就换回了python2.7。
- proxies
可以设置代理。跑多了ip容易被封。。。
如果遇到lxml解析不出来,试一试多半是跑着跑着被禁掉了。。
requests.get(url, cookies = cookie,proxies=proxies)
- 未解决的问题
下面两行代码用与匹配图片,不知道为什么在html中找到的这个path,在匹配的时候第一个会匹配失败,是个很玄学的问题
soup.find_all('a',href=re.compile(r'^/http:XXXX/mblog/oripic',re.I))
soup.find_all('a',href=re.compile(r'^/mblog/oripic{1}',re.I))