Tony老师学爬虫

最新推荐文章于 2024-07-24 11:52:57 发布

Tony老师number1

最新推荐文章于 2024-07-24 11:52:57 发布

阅读量48

点赞数

文章标签：爬虫 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/QY19999999/article/details/120834456

版权

爬虫步骤：

1.获取数据

2.解析数据

3.保存数据

1.获取数据：

1）先确定一个url：url=”https://movie.douban.com/top250?start="

2）再准备好header：headers={"User-Agent"，“host”，“cookies”}

3）发送request请求，包含headers等信息：request=urllib.request.Request(url,headers=head) #urllib.request发送请求

4）获取响应：response=urllib.request.urlopen(request) #urllib.urlopen()获取响应

5）读取响应：html=response.read().decode("utf-8") #read读取页面内容

2.解析数据：

1）使用beautifulsoup解析网页：（beautifulsoup将复杂html转化为复杂的树形结构，每个节点都是python对象）

soup= bs4.BeautifulSoup(html, "html.parser") #创建一个soup对象，html是一个网页内容，使用"html.parser"解析器。

2）之后使用正则表达式提取想要的字符串：

soup.find_all('div', class_="item") #beautifulsoup中的find_all()找到所有匹配结果出现的地方，返回的是一个列表！

findLink = re.compile(r'<a href="(.*?)">') #用正则表达式限定要找的字符串

link = re.findall(findLink,item)[0] #re.findall （返回string中所有与pattern相匹配的全部字串，返回形式为数组）re.findall(pattern, string, flags=0)

3.保存数据：

1）保存到Excel中：

2）保存到数据库中（sqlite）：

3）保存为文本：

Tony老师number1

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
Tony老师学爬虫

爬虫步骤：1.爬取网页2.解析数据3.保存数据1.爬取网页： 1）先确定一个url：url=”https://movie.douban.com/top250?start=" 2）再准备好header：headers={"User-Agent"，“host”，“cookies”} 3）发送request请求，包含headers等信息：request=urllib.request.Request(url,headers=head) 4）获取响应：res...
复制链接

扫一扫

Tony老师number1 CSDN认证博客专家 CSDN认证企业博客

码龄4年

2: 原创

179万+: 周排名

139万+: 总排名

557: 访问

: 等级

49: 积分

0: 粉丝

0: 获赞

2: 评论

0: 收藏

私信

关注

热门文章

最新评论

Tony老师学爬虫
CSDN-Ada助手: 恭喜您又写了一篇博客！看到标题里提到了学爬虫，我不禁想到了自己曾经对这个领域的兴趣。希望您能够在这条路上越走越远，不断学习探索。下一步的创作建议，个人认为可以尝试将爬虫应用到实际项目中，比如数据采集或者自动化测试等方面，这样既能够巩固所学知识，也能够实际应用到工作中。期待您的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
sklearn分类模块学习
CSDN-Ada助手: 恭喜你写出了这篇关于sklearn分类模块的博客！你的努力和创造力令人印象深刻。希望你能继续保持这种热情和创作力，不断学习和分享你的知识。下一步，也许你可以考虑写一篇关于sklearn回归模块的博客，让我们更全面地了解机器学习领域的各种算法和应用。期待你的下一篇作品！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。