爬虫第一步--两种方法爬取页面+pycharm报错的解决(valid)

本文介绍了Python爬虫的初步步骤,包括使用urllib.request和requests两种模块爬取网页内容。针对编码问题,文章提到了decode()的使用。此外,还解决了在PyCharm中遇到的错误,如选择有效的Python解释器和安装requests模块。
摘要由CSDN通过智能技术生成

爬虫第一步–两种方法爬取页面+pycharm报错的解决(valid)

写好爬虫第一步,在于先爬取到页面,目前学会两个模块就够用了,一种是urllib.request,另外一种是requsets。两种都能用,看个人喜好了。

在此之前,啥也没有的需要安装python3,官网下载exe可以一键安装。初学pycharm很有用,在pycharm的官网下载,哪儿错都能小灯泡提醒,不过大部分是英文,看不懂就别下载了,反正运行报错也会说哪儿错了,也可以直接百度直接改,但是我安装了,你们自己看着办。

第一种
以脚本之家为例,先选用urllib.request模块,确定url目标,读取,再print()。注意看脚本之家的编码是“gb2312”,所以要带上decode()转换,不然会得不到你想要的结果。


import urllib.request
url = "http://www.jb51.net"
get = urllib.request.urlopen(url
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值