爬虫第一步--两种方法爬取页面+pycharm报错的解决（valid）

最新推荐文章于 2024-08-22 17:36:33 发布

wn+35257

最新推荐文章于 2024-08-22 17:36:33 发布

阅读量1.4k

点赞数

分类专栏： python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46400217/article/details/105021686

版权

本文介绍了Python爬虫的初步步骤，包括使用urllib.request和requests两种模块爬取网页内容。针对编码问题，文章提到了decode()的使用。此外，还解决了在PyCharm中遇到的错误，如选择有效的Python解释器和安装requests模块。

摘要由CSDN通过智能技术生成

爬虫第一步–两种方法爬取页面+pycharm报错的解决（valid）

写好爬虫第一步，在于先爬取到页面，目前学会两个模块就够用了，一种是urllib.request，另外一种是requsets。两种都能用，看个人喜好了。

在此之前，啥也没有的需要安装python3，官网下载exe可以一键安装。初学pycharm很有用，在pycharm的官网下载，哪儿错都能小灯泡提醒，不过大部分是英文，看不懂就别下载了，反正运行报错也会说哪儿错了，也可以直接百度直接改，但是我安装了，你们自己看着办。

第一种
以脚本之家为例，先选用urllib.request模块,确定url目标，读取，再print()。注意看脚本之家的编码是“gb2312”，所以要带上decode()转换，不然会得不到你想要的结果。


import urllib.request
url = "http://www.jb51.net"
get = urllib.request.urlopen(url

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。