- 博客(8)
- 问答 (1)
- 收藏
- 关注
原创 【爬虫学习】基础篇6:Requests库
今天开始介绍一个更加高效方便的第三方爬虫库——requests库。在实际的爬虫代码撰写中,我们其实不太会使用urllib库,而会更多地使用requests库提高代码效率。
2024-02-13 14:02:19
684
1
原创 【爬虫学习】基础篇5:cookie
cookie,是我们的浏览器在向服务器提出请求时,向服务器亮明我们身份的一些信息数据,例如:我们的账号和密码。服务器在获取cookie数据后,就会向我们传输网页信息。因此,第一次访问某些网站(如:知乎、CSDN)时,我们传入的登录账号和密码就是cookie的一种。cookie的存储量很小,普通浏览器的容量上限是4KB左右。cookie的格式:SECURENAME表示cookie的名字;VALUE表示cookie的值;Expires表示cookie的过期时间;Path表示cookie作用的路径;
2024-01-26 22:34:48
807
1
原创 【爬虫学习】实战篇1:猫眼电影票房爬虫
使用python自带的urllib库编写一个小程序,我们只需启动小程序,就可以实时爬取猫眼的电影票房数据,并自动将数据生成一个excel保存至本地文件夹。接下来,我将尽可能详细地介绍爬虫编写的步骤,希望大家可以跟着我一步步操作,全部编写完成之后,我们可以展开想象的翅膀,触类旁通,使用相同的技巧去获取自己需要的公开数据吧!
2024-01-21 22:00:37
2139
3
原创 【爬虫学习】基础篇4:urllib库的编码与解码
初学朋友肯定会疑惑:为什么需要编码和解码?理由么,其实也不复杂,计算机语言或者说代码是西方老外发明的,他们当时根本没有考虑到咱们中国人会使用,所以代码全部都是英文。咱们在写代码的时候,尝尝会使用到中文的标题或者内容,这时就需要对中文汉字进行编码,将汉字转为特定的ASCII码,这样计算机才可以对汉字进行输出等处理。
2024-01-20 16:36:00
800
原创 【爬虫学习】基础篇3:urllib库与request模块
前面2讲,我们探讨了爬虫的基础知识和请求等概念,从第3讲开始,正式进入实操,我们一起学习如何用python编写代码,实现向服务器进行爬虫的操作。同样,我的理念是用长期主义+循序渐进的方式学习,把每个重要的基础概念吃透理解,写代码是最后水到渠成的步骤而已。
2024-01-20 10:10:44
1739
原创 【爬虫学习】基础篇2:请求
请求,在爬虫的世界里,指的是我们利用代码程序,模拟出浏览器向网页所在的服务器发送的一个请求。请求的内容纷繁复杂,很多时候我们要根据服务器的要求来(看菜下饭)。今天来聊聊请求的普通类型。
2024-01-18 22:55:10
1141
原创 【爬虫学习】基础篇1:基础概念
本来打算在知乎写爬虫学习的系列文章,发现知乎的写作界面很不友好,还是来CSDN写吧!我是一个编程小白,24年希望认认真真地学一些实用的计算机技术,先从爬虫和redis开始,写系列文章是为了更好地记录知识点,并利用费曼学习法加深对知识点的理解和运用。
2024-01-16 21:52:36
1227
空空如也
爬虫猫眼票房数据的问题
2024-01-22
python plot画图报错
2023-01-28
python-pandas-groupby 分类重复
2023-01-07
python正则表达式中元字符的定义
2022-12-03
TA创建的收藏夹 TA关注的收藏夹
TA关注的人