一个很简单的爬虫脚本,把代码里面的url地址改成想爬的地址就可以爬其他网站,
不过要注意的事,因为代码很简单,有反爬的网站爬出来的信息可能不是想要的东西
import urllib.request # 导入包
def getHtml(url): # 获取html的内容
html = urllib.request.urlopen(url).read() # bytes 如果不用read()html会是一个↓
return html # http.client.HTTPResponse的变量
def saveHtml(fileName, fileContent):
with open(fileName, "wb") as f: # 以wb打开文件
f.write(fileContent) # 写入
def main():
url = "https://www.zhihuishu.com/" # url
html = getHtml(url) # 调用函数获取bytes
saveHtml("theHtml.html", html) # 保存
print("保存网页完成") # 提示语
if __name__ == "__main__": # 主函数
main()
注意:如果你是打算找python高薪工作的话。我建议你多写点真实的企业项目积累经验。不然工作都找不到,当然很多人没进过企业,怎么会存在项目经验呢? 所以你得多找找企业项目实战多练习下撒。如果你很懒不想找,也可以进我的Python交流圈:1156465813。群文件里面有我之前在做开发写过的一些真实企业项目案例。你可以拿去学习,不懂都可以在裙里找我,有空会耐心给你解答下。