爬虫第一步–两种方法爬取页面+pycharm报错的解决(valid)
写好爬虫第一步,在于先爬取到页面,目前学会两个模块就够用了,一种是urllib.request,另外一种是requsets。两种都能用,看个人喜好了。
在此之前,啥也没有的需要安装python3,官网下载exe可以一键安装。初学pycharm很有用,在pycharm的官网下载,哪儿错都能小灯泡提醒,不过大部分是英文,看不懂就别下载了,反正运行报错也会说哪儿错了,也可以直接百度直接改,但是我安装了,你们自己看着办。
第一种
以脚本之家为例,先选用urllib.request模块,确定url目标,读取,再print()。注意看脚本之家的编码是“gb2312”,所以要带上decode()转换,不然会得不到你想要的结果。
import urllib.request
url = "http://www.jb51.net"
get = urllib.request.urlopen(url