Python爬虫(新手入门简介)

有趣的爬虫

相信很多python初学者都是爬虫有着不一样的感觉,会觉得爬虫好高级,我要是会了是不是就会很牛逼,爬些小图片,小视频啥的了,,,,啧啧,b站上漂亮小姐姐跳舞的视频了,还能搞要会员的电影,想着真爽,流哈喇子了都,哈哈哈。。。。
废话不多说了,进入正题,搬好小板凳
(python初学者)爬虫入门!!!!!!!!!!!!!!
太多的原理这里就不做过多的解释,先让你们收获到结果才是最好的,这样才有动力看下去;

from urllib.request import urlopen
html = urlopen('http://www.pythonscraping.com/pages/page1.html')
print (html.read())

这里代码什么意思的,我们一行行解释。
首先我们从urllib库里面导入urlopen(没有这个库的同学可以自己下载一下,不一样的python版本对应的pip安装方式还是有点差别的,这里就不一一解释了,不过通过pip装python库的时候超时是个麻烦事,这里给出几个下载源,快到飞起,,,,豆瓣的:https://pypi.doubanio.com/simple/,清华大学的:https://pypi.tuna.tsinghua.edu.cn/simple/,有了这两个不怕pip超时!!用的方式大约是这样注意-i这个参数
注意-i参数!!!!!!
导入库和函数之后,设置一个变量,这里网址随便找了一个,使用函数urlopen打开这个网页,然后赋值给html,最后用.read()显示出来,这里会显示page1.html整个网页的源代码:

b’\n\nA Useful Page\n\n\n

An Interesting Title

\n
\nLorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n
\n\n\n’

再来说说BeautifulSoup

看资料的时候看到介绍这个库的时候有一个诗歌

美味的汤,绿色的浓汤
在这热气腾腾的盖碗里装
谁不愿意尝一尝,这样的好汤?
晚餐用的汤,美味的汤!

这个是《爱丽丝梦游仙境》里的同名诗歌。
来,我们端一碗美味的BeautifulSoup汤。
首先来介绍安装BeautifulSoup。
Linux中安装方式,sudo apt-get intsall python-bs4(这里也相当于BeautifulSoup 4)
对于macOS系统先安装pip,sudo easy_install pip
然后使用pip安装,pip install beautifulsoup
(注意python版本不用pip的安装方式也是不一样的,通常情况下python3对应的是pip3,python2也就是pip了,这里很需要注意,当然如果下载超时还是可以用那个豆瓣或者清华大学的源的,)
安装完成之后可以测试一下:

 from bs4 import BeautifulSoup

什么都没显示说明安装成功了;
运行BeautifulSoup
写代码:

from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen('http://www.pythonscraping.com/pages/page1.html')
may = BeautifulSoup(html,'lxml')
print (may.div)

一样的步骤,导入urlopen,然后导入BeautifulSoup,赋值,不同的是这里用了一个‘lxml’解析器,要使用这个也是要下载的pip下载一下就ok了,然后最后的print(may.div)这里may是变量名,看代码就能看出来啥意思,然后div是网页源代码里的一个块,在这里插入图片描述

这里就是网页源代码的全部内容,当然你也可以换,不一样非要div。
这段代码的运行结果如下图:
在这里插入图片描述
简单的一个爬虫小代码就完成了,当然这个只能说简单的不能再简单了,不过这不正是新手需要的吗?一切都得慢慢来,由浅入深,一步一步的走下去,只要努力就没有办不成的事。
少年,加油吧!!不努力真的没办法。

Python爬虫是一种自动化获取互联网信息的技术,它可以帮助我们快速地从网页中提取所需的数据。以下是Python爬虫新手入门教学的步骤: 1. 安装Python和相关库 首先需要安装Python和相关的库,如requests、beautifulsoup4、lxml等。可以使用pip命令来安装这些库。 2. 确定爬取目标 确定需要爬取的目标网站和所需的数据。可以使用浏览器的开发者工具来查看网页的源代码,确定需要爬取的数据在哪个标签中。 3. 发送HTTP请求 使用requests库发送HTTP请求,获取网页的源代码。可以使用get或post方法来发送请求。 4. 解析HTML 使用beautifulsoup4库解析HTML,提取所需的数据。可以使用find、find_all等方法来查找标签。 5. 存储数据 将提取的数据存储到本地文件或数据库中。可以使用csv、json、sqlite等库来存储数据。 以下是一个简单的Python爬虫示例,用于获取豆瓣电影Top250的电影名称和评分: ```python import requests from bs4 import BeautifulSoup url = 'https://movie.douban.com/top250' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'lxml') movies = soup.find_all('div', class_='hd') for movie in movies: name = movie.a.span.text.strip() rating = movie.parent.find('span', class_='rating_num').text.strip() print(name, rating) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值