爬虫(二)

代码作用:将网页的源码保存在本地文件中

代码:

import requests
html=requests.get("http://www.youku.com")


print(html.encoding)
print(html.apparent_encoding)
html.encoding=html.apparent_encoding

with open('text.txt','w',encoding='utf-8') as f:
    f.write(html.text)

执行结果:

F:\python\pachong\venv\Scripts\python.exe F:/python/pachong/pachongpayuanma.py
ISO-8859-1
utf-8

Process finished with exit code 0

在项目文件夹中生成了优酷源码的txt文件

#两个print是我用来检测中文的输出格式的

#请求成功会返回给你内容,然后内容需要根据编码方式进行解析,encoding是默认的编码,而apparent_encoding是对内容分析之后推测出用什么编码

#下面的代码是我网上看到后参考的,我用下面的代码运行之后也能生成源码的txt文件,但是txt文件里的中文是乱码



阅读更多

没有更多推荐了,返回首页