python爬虫学习记录

鹤早早

已于 2023-07-18 22:11:00 修改

阅读量604

点赞数 1

文章标签： python 爬虫学习

于 2023-07-17 13:41:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32765617/article/details/131764271

版权

1、23.7.17

# 一个类型 HTTPResponse # 六个方法 read readline readlines getcode geturl getheaders

import urllib.request
url = 'http://www.baidu.com'
# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(url)

# response是HTTPResponse的类型，讲一个类型多个方法

# 一字节一字节读
content = response.read().decode('utf-8')
print(content)

# 返回多少个字节
# content =response.rend(5)

#读取一行
#content =respnse.readline()

#一行一行读完
# content=response.readlines();

# 返回状态码，200没错
#print(response.getcode())

#返回url地址
#print(response.geturl())

#获取状态信息
#print(response.getheaders())

目录

python网络爬虫系统学习23.7.18

一、python基础

二、获取网页源代码

1、查看网页源代码

2、用requests获取源代码

三、数据解析与提取

四、爬虫神器selenium

五、数据处理与可视化

六、数据结构化与存储

七、多线程和多进程爬虫

八、ip代理使用技巧与实战

python网络爬虫系统学习23.7.18

去图书馆找了一本书来着，感觉还是很不错的，打算按这个书学习，资料存在D:\python\pythonpc，如果还了书就回去看这个

一、python基础

这个就用我之前的python教材学习，然后此书主要也是介绍了一下数据类型和基础语句函数什么的，在这本书学到了怎么安装库，网上也都能搜到和一些解决方法。

二、获取网页源代码

7.18

1、查看网页源代码

一般fn+f12，然后主要使用这两种符号，可以编译网页，很好玩哈哈

1.快捷键ctrl+f可以看源代码，结合使用看看有没有动态渲染

2.网址要全写

3.对于网址的一些简化，可以删掉一些&

4.如果中文变英文就直接改回中文

2、用requests获取源代码

三、数据解析与提取

四、爬虫神器selenium

五、数据处理与可视化

六、数据结构化与存储

七、多线程和多进程爬虫

八、ip代理使用技巧与实战

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫学习记录

一个类型 HTTPResponse # 六个方法 read readline readlines getcode geturl getheaders。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。