python爬虫学习记录

1、23.7.17

# 一个类型 HTTPResponse # 六个方法 read readline readlines getcode geturl getheaders

import urllib.request
url = 'http://www.baidu.com'
# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(url)

# response是HTTPResponse的类型,讲一个类型多个方法

# 一字节一字节读
content = response.read().decode('utf-8')
print(content)

# 返回多少个字节
# content =response.rend(5)

#读取一行
#content =respnse.readline()

#一行一行读完
# content=response.readlines();

# 返回状态码,200没错
#print(response.getcode())

#返回url地址
#print(response.geturl())

#获取状态信息
#print(response.getheaders())

目录

1、23.7.17

python网络爬虫系统学习23.7.18

一、python基础

二、获取网页源代码

1、查看网页源代码

 2、用requests获取源代码

三、数据解析与提取

四、爬虫神器selenium

五、数据处理与可视化

六、数据结构化与存储

七、多线程和多进程爬虫

八、ip代理使用技巧与实战


python网络爬虫系统学习23.7.18

去图书馆找了一本书来着,感觉还是很不错的,打算按这个书学习,资料存在D:\python\pythonpc,如果还了书就回去看这个

一、python基础

这个就用我之前的python教材学习,然后此书主要也是介绍了一下数据类型和基础语句函数什么的,在这本书学到了怎么安装库,网上也都能搜到和一些解决方法。

二、获取网页源代码

7.18

1、查看网页源代码

一般fn+f12,然后主要使用这两种符号,可以编译网页,很好玩哈哈

1.快捷键ctrl+f可以看源代码,结合使用看看有没有动态渲染

2.网址要全写

3.对于网址的一些简化,可以删掉一些&

4.如果中文变英文就直接改回中文

 2、用requests获取源代码

三、数据解析与提取

四、爬虫神器selenium

五、数据处理与可视化

六、数据结构化与存储

七、多线程和多进程爬虫

八、ip代理使用技巧与实战

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值