- urllib2 是针对文本的 urllib 是针对二进制文件的
- 下载文件最简单的写法
urllib.urlretrieve(url, filePath + fileName)
- 如果需要访问非英文页面文字,自行 decode
html.decode('euc-jp').encode('utf-8')
- 使用 BeautifulSoup 处理 html 非常方便,但是在 Jython 下速度超级慢!
- 可以直接使用正则在 BeautifulSoup 中查找需要的标签
links = soup.findAll('a', href=re.compile('^.+?$')
- try except else 的应用
- 强制抛出异常 raise
- 使用格式化文本实现数字补零
fileName = '%03d.jpg' %(time)
- 新建文件夹
if not os.path.isdir(filePath): os.mkdir(filePath)
- 字符串和数字无法相加 需要讲数字转化为字符串 str(num)
- cmp 可以用来比较两个字符串,完全相同返回 0
- # -*- coding: utf-8 -*- 非常重要,不光影响代码中的注释,还会影响到处理文本。起初忘记加这个,导致日文无法正常处理。
最近写了个Python爬虫,记录一下学到的东西
最新推荐文章于 2021-11-15 18:34:33 发布