1、23.7.17
# 一个类型 HTTPResponse # 六个方法 read readline readlines getcode geturl getheaders
import urllib.request
url = 'http://www.baidu.com'
# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(url)
# response是HTTPResponse的类型,讲一个类型多个方法
# 一字节一字节读
content = response.read().decode('utf-8')
print(content)
# 返回多少个字节
# content =response.rend(5)
#读取一行
#content =respnse.readline()
#一行一行读完
# content=response.readlines();
# 返回状态码,200没错
#print(response.getcode())
#返回url地址
#print(response.geturl())
#获取状态信息
#print(response.getheaders())
目录
python网络爬虫系统学习23.7.18
去图书馆找了一本书来着,感觉还是很不错的,打算按这个书学习,资料存在D:\python\pythonpc,如果还了书就回去看这个
一、python基础
这个就用我之前的python教材学习,然后此书主要也是介绍了一下数据类型和基础语句函数什么的,在这本书学到了怎么安装库,网上也都能搜到和一些解决方法。
二、获取网页源代码
7.18
1、查看网页源代码
一般fn+f12,然后主要使用这两种符号,可以编译网页,很好玩哈哈
1.快捷键ctrl+f可以看源代码,结合使用看看有没有动态渲染
2.网址要全写
3.对于网址的一些简化,可以删掉一些&
4.如果中文变英文就直接改回中文