Python爬虫（新手入门简介）

最新推荐文章于 2024-09-17 23:15:58 发布

死磕JAVA

最新推荐文章于 2024-09-17 23:15:58 发布

阅读量182

点赞数 2

分类专栏：新手专区 python入门爬虫入门文章标签： python

本文链接：https://blog.csdn.net/qq_42763306/article/details/106193094

版权

新手专区同时被 3 个专栏收录

4 篇文章 0 订阅

订阅专栏

python入门

4 篇文章 0 订阅

订阅专栏

爬虫入门

1 篇文章 0 订阅

订阅专栏

有趣的爬虫

相信很多python初学者都是爬虫有着不一样的感觉，会觉得爬虫好高级，我要是会了是不是就会很牛逼，爬些小图片，小视频啥的了，，，，啧啧，b站上漂亮小姐姐跳舞的视频了，还能搞要会员的电影，想着真爽，流哈喇子了都，哈哈哈。。。。
废话不多说了，进入正题，搬好小板凳
（python初学者）爬虫入门！！！！！！！！！！！！！！
太多的原理这里就不做过多的解释，先让你们收获到结果才是最好的，这样才有动力看下去；

from urllib.request import urlopen
html = urlopen('http://www.pythonscraping.com/pages/page1.html')
print (html.read())

这里代码什么意思的，我们一行行解释。
首先我们从urllib库里面导入urlopen（没有这个库的同学可以自己下载一下，不一样的python版本对应的pip安装方式还是有点差别的，这里就不一一解释了，不过通过pip装python库的时候超时是个麻烦事，这里给出几个下载源，快到飞起，，，，豆瓣的：https://pypi.doubanio.com/simple/，清华大学的：https://pypi.tuna.tsinghua.edu.cn/simple/，有了这两个不怕pip超时！！用的方式大约是这样注意-i这个参数
注意-i参数！！！！！！
导入库和函数之后，设置一个变量，这里网址随便找了一个，使用函数urlopen打开这个网页，然后赋值给html，最后用.read()显示出来，这里会显示page1.html整个网页的源代码：

b’\n\nA Useful Page\n\n\n

An Interesting Title
\n
\nLorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n
\n\n\n’

再来说说BeautifulSoup

看资料的时候看到介绍这个库的时候有一个诗歌

美味的汤，绿色的浓汤
在这热气腾腾的盖碗里装
谁不愿意尝一尝，这样的好汤？
晚餐用的汤，美味的汤！

这个是《爱丽丝梦游仙境》里的同名诗歌。
来，我们端一碗美味的BeautifulSoup汤。
首先来介绍安装BeautifulSoup。
Linux中安装方式，sudo apt-get intsall python-bs4(这里也相当于BeautifulSoup 4)
对于macOS系统先安装pip，sudo easy_install pip
然后使用pip安装，pip install beautifulsoup
（注意python版本不用pip的安装方式也是不一样的，通常情况下python3对应的是pip3，python2也就是pip了，这里很需要注意，当然如果下载超时还是可以用那个豆瓣或者清华大学的源的，）
安装完成之后可以测试一下：

 from bs4 import BeautifulSoup

什么都没显示说明安装成功了；
运行BeautifulSoup
写代码：

from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen('http://www.pythonscraping.com/pages/page1.html')
may = BeautifulSoup(html,'lxml')
print (may.div)

一样的步骤，导入urlopen，然后导入BeautifulSoup，赋值，不同的是这里用了一个‘lxml’解析器，要使用这个也是要下载的pip下载一下就ok了，然后最后的print(may.div)这里may是变量名，看代码就能看出来啥意思，然后div是网页源代码里的一个块，在这里插入图片描述

这里就是网页源代码的全部内容，当然你也可以换，不一样非要div。
这段代码的运行结果如下图：
在这里插入图片描述
简单的一个爬虫小代码就完成了，当然这个只能说简单的不能再简单了，不过这不正是新手需要的吗？一切都得慢慢来，由浅入深，一步一步的走下去，只要努力就没有办不成的事。
少年，加油吧！！不努力真的没办法。