Description
- Yixiaohan/show-me-the-code 第0008题 && 第0009题 && 第0013题
- 0008 :一个HTML文件,找出里面的正文。
- 0009 :一个HTML文件,找出里面的链接。
- 0013 :用 Python 写一个爬图片的程序。
Notes
这个小项目中涉及BeautifulSoup模块的使用、文件I/O操作、从网络上下载文件等内容。几个知识点:
requests模块的使用 && Response类对象
request这个模块可以处理HTML请求,GET/POST/DELETE/PUT等都可以。
response = requests.get(url)
调用上述函数之后,会返回一个Response类对象。因为不同网站的编码方式可能有所不同,所以在这个项目中显示地将response的编码方式改成utf-8。
response.encoding = "utf-8"
得到从Response类对象的text属性得到html原文。
html_code